Was eine vanity search ist, dürften die meisten wissen: Man gibt den eigenen Namen in eine Suchmaschine ein und sieht nach, was man alles an Ergebnissen präsentiert bekommt.
So etwas kann man aber auch benutzen, um Spaß mit biologischen Datenbanken zu haben – und dabei noch etwas zu lernen!
1965 wurde ein kleines Büchlein verfasst: Der “Atlas of Protein Sequences and Structures” von Margaret O. Dayhoff [1] trug alle damals bekannten Proteinsequenzen, ganze 65 Stück, zusammen. Seitdem hat sich, nicht zuletzt dank der enormen Weiterentwicklungen der Sequenziertechnologien und der Vergrößerung der Rechenkapazitäten einiges getan. Die Sequenzdatenbanken beim amerikanischen National Center for Biotechnology Information (NCBI) fassen mittlerweile Sequenzen von Genen, Proteinen, Umweltproben, aber auch ganzen Genomen. Alleine die Datenbank GenBank wuchs von 606 Einträgen (680338 Basenpaaren) 1982 auf über 100 Millionen Einträge beziehungsweise über 100 Milliarden Basenpaaren diesen Februar! Von 1982 bis heute hat sich die Anzahl an Basenpaaren in der GenBank alle 18 Monate verdoppelt.
Für so riesige Datenbanken braucht man natürlich sehr gute Suchmöglichkeiten. Das klassische “Suchprogramm” für Sequenzdatenbanken, praktisch das Google für Sequenzen, ist der BLAST-Algorithmus [2]. BLAST nimmt eine Nukleotid- oder Proteinsequenz entgegen, vergleicht sie mit einer Datenbank der Wahl, und gibt eine Liste mit möglichen Treffern zurück.
Wichtig zum Bewerten der ausgegebenen Treffer sind zwei Werte. Der Score berechnet sich relativ einfach: Für jede Sequenzübereinstimmung erhält er einen Wert von +2, für jede Nichtübereinstimmung einen Wert von -3. (Das gilt für Nukleotidvergleiche, bei Aminosäuresequenzen ist die Berechnung ein wenig komplexer.) Der Sequenzvergleich mit dem größten Score wird dann als der beste angenommen. Fast noch wichtiger ist der E-Wert. Er gibt die Wahrscheinlichkeit an, Sequenzen mit einem bestimmten Score (oder besser) zu erhalten, wenn mit einer Zufallssequenz gesucht würde. Dies wird besonders dann wichtig, wenn mit relativ kurzen Sequenzen gegen eine große Datenbank gesucht wird – je kürzer die Sequenz, desto wahrscheinlicher, dass sie rein zufällig in der Datenbank vorkommt. Deshalb gilt: Je kleiner der E-Wert eines Treffers, desto besser ist er einzuschätzen.
Und damit komme ich wieder zurück zum Anfang dieses Posts. Selbstverständlich kann man zum Experimentieren mit BLAST auch mal so etwas wie seinen Namen eingeben und nachsehen, was man für Treffer erhält. Das bezeichne ich jetzt einfach mal in Anlehnung an die Suchmaschinen als Vanity BLAST. Die 20 Aminosäuren, die für den Aufbau von Proteinen benutzt werden, können durch einen Ein-Buchstaben-Code [1] abgekürzt werden. Außer B, J, O, U, und Z kommen dabei alle Buchstaben unseres Alphabets vor [3].
Ausgehend von der BLAST-Homepage des NCBI wählt man hierzu “Protein BLAST”.
Im großen Feld ganz oben gibt man die Sequenz ein, die in der Datenbank gesucht werden soll, etwa meinen Namen. Dann muss man nur noch die Datenbank auswählen, wobei “Non-redundant protein sequences (nr)” hier die beste Wahl ist, und den zu verwendenden Algorithmus. Hier empfiehlt sich zum Start “blastp”. Dann nur noch auf den großen Button “BLAST” klicken, und los gehts [4]!
Als Ergebnis erhält man zunächst eine graphische Übersicht, in der die besten Treffer als Linien angezeigt werden. Die Länge und Farbe der Linien gibt an, über welchen Bereich der gesuchten Sequenz und mit welcher Score die Treffer vorliegen. Dann folgt eine Liste mit der Kurzzusammenfassung der Ergebnisse: Bezeichnung des Protein, Score und E-Wert. Erst darunter wird dann für jedes Ergebnis detailliert gezeigt, wie Suchsequenz und Treffer zusammenpassen. Selbst der beste Treffer ist bei mir mit einer Score von 30,3 und einem E-Wert von 20 eigentlich miserabel. Das war aber auch nicht anders zu erwarten bei einer Suchsequenz von 13 Aminosäuren und einer Datenbank von fast 3 Milliarden Aminosäuren Umfang!
Witzig an diesem Treffer ist, dass es sich dabei um das Protein RecO handelt. Dieses ist nämlich ein bakterielles DNA-Rekombinations- und Reparaturprotein – und ich arbeite an genau diesem Thema (wenn auch in Pflanzen)! Dabei hatte ich noch richtig viel Glück, denn ein Klassiker ist bereits die Suche nach “SARAHPALIN”, bei der Bloggerkollege und UC Davis-Professor Jonathan Eisen als besten Treffer ein Protein aus dem Pilz Botryotinia fuckeliana erhielt!
Also, was sagen eure Namen über eure evolutionäre Verwandtschaft aus? [5]
[1] Margaret Dayhoff war eine der ersten Bioinformatikerinnen, und auf sie gehen unter anderem die PAM-Substitionsmatrix und der Ein-Buchstabencode für Proteine zurück.
[2] BLAST = Basic Local Alignment Search Tool.
[3] X steht für eine beliebige Aminosäure.
[4] Wer möchte, kann ganz unten noch die “Algorithm parameters” ausklappen, und einen Haken bei “Short queries” setzen, um bestimmte Parameter des Algorithmus für eine kurze Suchsequenz anzupassen.
[5] Notiz an alle Wahrsager und Kaffeesatzleser: Großbetrieben mittels Vanity BLASTs bei der Auswahl ihrer Mitarbeiter zu helfen ist meine Geschäftsidee, bleibt ihr bei euren Sternzeichen und Blutgruppen!
Kommentare (8)