Was eine vanity search ist, dürften die meisten wissen: Man gibt den eigenen Namen in eine Suchmaschine ein und sieht nach, was man alles an Ergebnissen präsentiert bekommt.
So etwas kann man aber auch benutzen, um Spaß mit biologischen Datenbanken zu haben – und dabei noch etwas zu lernen!


1965 wurde ein kleines Büchlein verfasst: Der “Atlas of Protein Sequences and Structures” von Margaret O. Dayhoff [1] trug alle damals bekannten Proteinsequenzen, ganze 65 Stück, zusammen. Seitdem hat sich, nicht zuletzt dank der enormen Weiterentwicklungen der Sequenziertechnologien und der Vergrößerung der Rechenkapazitäten einiges getan. Die Sequenzdatenbanken beim amerikanischen National Center for Biotechnology Information (NCBI) fassen mittlerweile Sequenzen von Genen, Proteinen, Umweltproben, aber auch ganzen Genomen. Alleine die Datenbank GenBank wuchs von 606 Einträgen (680338 Basenpaaren) 1982 auf über 100 Millionen Einträge beziehungsweise über 100 Milliarden Basenpaaren diesen Februar! Von 1982 bis heute hat sich die Anzahl an Basenpaaren in der GenBank alle 18 Monate verdoppelt.

Für so riesige Datenbanken braucht man natürlich sehr gute Suchmöglichkeiten. Das klassische “Suchprogramm” für Sequenzdatenbanken, praktisch das Google für Sequenzen, ist der BLAST-Algorithmus [2]. BLAST nimmt eine Nukleotid- oder Proteinsequenz entgegen, vergleicht sie mit einer Datenbank der Wahl, und gibt eine Liste mit möglichen Treffern zurück.
Wichtig zum Bewerten der ausgegebenen Treffer sind zwei Werte. Der Score berechnet sich relativ einfach: Für jede Sequenzübereinstimmung erhält er einen Wert von +2, für jede Nichtübereinstimmung einen Wert von -3. (Das gilt für Nukleotidvergleiche, bei Aminosäuresequenzen ist die Berechnung ein wenig komplexer.) Der Sequenzvergleich mit dem größten Score wird dann als der beste angenommen. Fast noch wichtiger ist der E-Wert. Er gibt die Wahrscheinlichkeit an, Sequenzen mit einem bestimmten Score (oder besser) zu erhalten, wenn mit einer Zufallssequenz gesucht würde. Dies wird besonders dann wichtig, wenn mit relativ kurzen Sequenzen gegen eine große Datenbank gesucht wird – je kürzer die Sequenz, desto wahrscheinlicher, dass sie rein zufällig in der Datenbank vorkommt. Deshalb gilt: Je kleiner der E-Wert eines Treffers, desto besser ist er einzuschätzen.

Und damit komme ich wieder zurück zum Anfang dieses Posts. Selbstverständlich kann man zum Experimentieren mit BLAST auch mal so etwas wie seinen Namen eingeben und nachsehen, was man für Treffer erhält. Das bezeichne ich jetzt einfach mal in Anlehnung an die Suchmaschinen als Vanity BLAST. Die 20 Aminosäuren, die für den Aufbau von Proteinen benutzt werden, können durch einen Ein-Buchstaben-Code [1] abgekürzt werden. Außer B, J, O, U, und Z kommen dabei alle Buchstaben unseres Alphabets vor [3].

Ausgehend von der BLAST-Homepage des NCBI wählt man hierzu “Protein BLAST”.

blast shot1.jpg
Screenshot der Eingabemaske von NCBI Protein BLAST. Die Pfeile zeigen auf die wichtigen Eingabefelder Sequenz eingeben, Datenbank und Algorithmus. Klicken für große Version.

Im großen Feld ganz oben gibt man die Sequenz ein, die in der Datenbank gesucht werden soll, etwa meinen Namen. Dann muss man nur noch die Datenbank auswählen, wobei “Non-redundant protein sequences (nr)” hier die beste Wahl ist, und den zu verwendenden Algorithmus. Hier empfiehlt sich zum Start “blastp”. Dann nur noch auf den großen Button “BLAST” klicken, und los gehts [4]!

Als Ergebnis erhält man zunächst eine graphische Übersicht, in der die besten Treffer als Linien angezeigt werden. Die Länge und Farbe der Linien gibt an, über welchen Bereich der gesuchten Sequenz und mit welcher Score die Treffer vorliegen. Dann folgt eine Liste mit der Kurzzusammenfassung der Ergebnisse: Bezeichnung des Protein, Score und E-Wert. Erst darunter wird dann für jedes Ergebnis detailliert gezeigt, wie Suchsequenz und Treffer zusammenpassen. Selbst der beste Treffer ist bei mir mit einer Score von 30,3 und einem E-Wert von 20 eigentlich miserabel. Das war aber auch nicht anders zu erwarten bei einer Suchsequenz von 13 Aminosäuren und einer Datenbank von fast 3 Milliarden Aminosäuren Umfang!

blast shot2.jpg

Witzig an diesem Treffer ist, dass es sich dabei um das Protein RecO handelt. Dieses ist nämlich ein bakterielles DNA-Rekombinations- und Reparaturprotein – und ich arbeite an genau diesem Thema (wenn auch in Pflanzen)! Dabei hatte ich noch richtig viel Glück, denn ein Klassiker ist bereits die Suche nach “SARAHPALIN”, bei der Bloggerkollege und UC Davis-Professor Jonathan Eisen als besten Treffer ein Protein aus dem Pilz Botryotinia fuckeliana erhielt!

Also, was sagen eure Namen über eure evolutionäre Verwandtschaft aus? [5]

[1] Margaret Dayhoff war eine der ersten Bioinformatikerinnen, und auf sie gehen unter anderem die PAM-Substitionsmatrix und der Ein-Buchstabencode für Proteine zurück.
[2] BLAST = Basic Local Alignment Search Tool.
[3] X steht für eine beliebige Aminosäure.
[4] Wer möchte, kann ganz unten noch die “Algorithm parameters” ausklappen, und einen Haken bei “Short queries” setzen, um bestimmte Parameter des Algorithmus für eine kurze Suchsequenz anzupassen.
[5] Notiz an alle Wahrsager und Kaffeesatzleser: Großbetrieben mittels Vanity BLASTs bei der Auswahl ihrer Mitarbeiter zu helfen ist meine Geschäftsidee, bleibt ihr bei euren Sternzeichen und Blutgruppen!

Kommentare (8)

  1. #1 rolak
    März 9, 2009

    SOURCE — Petrotoga mobilis SJ95
    ORGANISM — Petrotoga mobilis SJ95
    Bacteria; Thermotogae; Thermotogales; Thermotogaceae; Petrotoga.

    na ja, also doch ne linke Bazille 😉

  2. #2 Engywuck
    März 10, 2009

    gb|AAP70296.1| VC0181-like protein [Escherichia coli] 30.3 20

    SOURCE Escherichia coli
    ORGANISM Escherichia coli
    Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;
    Enterobacteriaceae; Escherichia.

    Na toll… ne Darmbazille
    Wenigstens produziere ich Vitamin K 😀

    in meinem Namen kommen gleich 3 der nicht vergebenen Buchstaben vor… Großartig
    Lasse ich die entsprechenden Buchstaben einfach weg wird das Ergebnis besser:

    gb|ACD43637.1| TagB11 [Tetrathiobacter kashmirensis] 31.2 11

    SOURCE Tetrathiobacter kashmirensis
    ORGANISM Tetrathiobacter kashmirensis
    Bacteria; Proteobacteria; Betaproteobacteria; Burkholderiales;
    Alcaligenaceae; Tetrathiobacter.
    ist ein “sulfur chemolithotrophic betaproteobacterium” – nett.

  3. #3 Fischer
    März 10, 2009

    Be mir sind die besten Hits ne CoA-Transferase aus Salinispora und erfreulicherweise ein Transkriptionsfaktor bei Burkholderia. Über die Viecher hab ich gerade erst was gebloggt.

  4. #4 Anhaltiner
    März 10, 2009

    So ein Mist, ich brauch aber das O und das B – darf ich die Buchstaben gegen ein X eintauschen?

    Halo? Halobacteriales! klingt echt super! Na dann gute Nacht!

  5. #5 GeMa
    März 10, 2009

    Donnerwetter, da bekommt Herrn Sloterdijks programmatischer Namensvektor endlich mal Sinn. https://www.cicero.de/97.php?ress_id=4&item=1420

  6. #6 Jörg
    März 10, 2009

    Außer B, J, O, U, und Z kommen dabei alle Buchstaben unseres Alphabets vor

    Toll wenn man JOERG heisst 🙁

  7. #7 Alexander Knoll
    März 10, 2009

    Toll wenn man JOERG heisst 🙁

    Kein Problem, die falschen Aminosäuren werden dann eh automatisch wegge-X-t!
    Ich weiß aber, warum du das Ergebnis nicht reingeschrieben hast, du Blutparasit 😉

  8. #8 Susi
    März 11, 2009

    Lustig! Ich wusste schon immer, dass ich mit den Wildschweinen eng verbunden bin 😉

    PREDICTED: similar to FERM and PDZ domain-containing protein 2
    precursor (PDZ domain-containing protein 5C) (PDZ domain-containing
    protein 4) [Sus scrofa].