Marina Manrique ist Bioinformatikerin. Sie beschäftigt sich mit der Analyse (der Annotierung) bakterieller Genomsequenzen und sie ist aktiv an einem Crowdsourcing-Projekt beteiligt, das mit der Auswertung der EHEC-Sequenzen beschäftigt ist. Das meiste was man bislang über den pathogenen E. coli Stamm weiß, entstammt diesem Projekt. Hier ein Interview mit Marina.
WeiterGen: Marina, kannst du dich kurz vorstellen, was ist dein wissenschaftlicher Hintergrund, wo arbeitest du und womit beschäftigst du dich im Zusammenhang mit EHEC und HUS?
Marina Manrique: Ich bin Bioinformatikerin, mein Hintergrund ist die Biochemie. Ich arbeite seit etwa vier Jahren bei Era7, eine Biotechfirma in Granada, und speziell bei OhNoSequences!, der Forschungs- und Entwicklungsgruppe von Era7. Ich interessiere mich dafür, wie wir “Next-Generation” Sequenzierungsmethoden verwenden können um biologisch relevante Fragestellungen zu erforschen mit Fokus auf bakterielle Genomics.
Die erste von uns veröffentlichte Annotierung eines aktuellen E. coli HUS Stamms (Stamm TY-2482) wurde von Raquel Tobes gemacht, der Leiterin der OhNoSequences!-Gruppe. Die folgenden Annotierungen wurden von Raquel und mir durchgeführt und online veröffentlicht. Alle Genomannotierungen wurden mit unserer BG7-Plattform durchgeführt, ein System, das speziell für die Auswertung von Next-Generation Sequenzdaten von Bakterien entwickelt wurde.
WG: Der EHEC-Erreger wurde unabhängig an mehreren Orten sequenziert. Welche unterschiedlichen Analysetechniken habt ihr verwendet, mit wie vielen unterschiedlichen Sequenzdatensätzen arbeitet ihr?
Unterschiedliche Quellen der Sequenzdaten und unter-schiedliche Analysemethoden
MM: Wir haben die drei sequenzierten E. coli Isolate insgesamt fünf Mal komplett annotiert, drei Mal den Stamm TY-2482, und je ein Mal LB226692 und H112180280. Jede dieser Annotierungen wurde mit unterschiedlichen Werkzeugen durchgeführt, passend zur jeweiligen Sequenzierungtechnik (weitere Informationen über die Genom-Annotierungen hier). Die bislang eingesetzten Technologien sind: Ion Torrent 314 Chips, Illumina single-reads, Illumina Paired-End reads mit 500 Basenpaaren Insertgröße und 454 Paired-End-reads.
WG: Was sind die größten Herausforderungen bei der Annotierunge bakterieller Genome?
MM: Definitiv die größte Herausforderung sind die Sequenzierungsfehler. Wir müssen im Hinterkopf behalten, dass die Next-Generation-Sequenzierungsmethoden zwar sehr schnell und mit hohem Durchsatz DNA lesen können, allerdings auch viele Fehler machen. Das Kombinieren der unterschiedlichen Technologien, Hybrid-Assemblies und die möglichst komplette und mehrfache Sequenzierung der Genome kann helfen diese Fehler zu minimieren, aber es ist wirklich wichtig, sich der möglichen Fehlerquellen und der Stärken und Schwächen der jeweiligen Technologie bewusst zu sein. Weiter ist das Handling riesiger Datenmengen wichtig, die diese Technologien erzeugen.
Im Fall der aktuellen Epidemie war es essentiell, das Genom so schnell wie möglich zuverlässig zu annotieren. Eine wichtige Herausforderung besteht darin, einer Genom-Annotierung möglichst viele biologisch relevante Erkenntnisse zu entnehmen, beispielsweise darüber, wie das sequenzierte Bakterium funktioniert uns wie es mit dem Menschen oder der direkten Umwelt interagiert. Durch unsere Erkenntnisse können möglicherweise vorbeugenden Maßnahmen ergriffen werden, die Expansion des Erregers bekämpft werden, und therapeutische Maßnahmen angepasst werden.
WG: Ihr teilt eure Daten öffentlich in einer Online-Community. Die ganze Analyse des Genoms ist ein international vernetztes Crowdsourcing-Projekt. Ihr kommuniziert über Twitter, die Forschungsrgebnisse werden in Wikis und Blogs veröffentlicht. Wie funktioniert das, wie viele Leute sind derzeit an der Analyse der Sequenzen beteiligt?
MM: Es ist fantastisch zu sehen, wie weltweit Wissenschaftler angefangen haben, zusammen diese Daten zu analysieren. Wir haben Leute aus Spanien, Australien, Großbritannien, Polen, Deutschland, China, und so weiter. Die Freigabe der Rohdaten durch BGI, Lifetech und der Health Protection Agency Großbritannien (die Zentren, in denen die Stämme sequenziert wurden, WG) war entscheidend für dieses Crowdsourcing-Bewegung, genauso wie die Nutzung von Twitter, GitHub und die privaten Blogs.
Es ist fantastisch zu sehen, wie weltweit Wissenschaftler zusammen die Daten analysieren.
Bisher gibt es 13 mitwirkende Gruppen am Github-Wiki, wo wir unsere Analysen gesammelt zur Verfügung stellen. Wir sind aber ziemlich sicher, dass die tatsächliche Zahl der Forscher, die an der Sequenzanalyse arbeiten viel höher ist. Wir haben einige Mails von Leuten erhalten, die angekündigt haben, die Daten ebenfalls auszuwerten und ihre Ergebnisse in naher Zukunft zu veröffentlichen. Wahrscheinlich gibt es auch Forscher die an der Datenanalyse arbeiten, ihre Ergebnisse aber nicht so offen kommunizieren.
WG: Was ist euer Nutzen an dem Projekt?
MM: Am wichtigsten ist, dass dadurch dass wir unsere Ergebnisse Open-Access publizieren, vor allem unter CC0 Lizenz, wir allen Menschen die Möglichkeit geben kostenlos auf die komplett öffentlich zugänglichen Daten zu zu greifen. Weiter ist das öffentliche Teilen der Ergebnisse auch eine tolle Möglichkeit zu zeigen, woran man selbst arbeitet und wo wie eigenen Stärken liegen
Das Teilen der Daten und der Informationen online war auch sehr wichtig, um das E. coli Genom schnell und komplett zu annotieren. Hier beschreiben wir, wie wir in weniger als 24 Stunden die Rohsequenzen bekamen, das Genom daraus assembliert, und funktional annotiert haben. Besonders im Zusammenhang mit akuten Epidemien ist es wichtig, Sequenzdaten so schnell analysieren zu können.
WG: Wie unterscheiden sich eure Annotierungen von anderen, offiziellen?
MM: Der einzige Unterschied ist, dass unsere Community-basierte Analyse als vorläufige Analyse gilt, da Sie nicht extern begutachtet, also peer-reviewt ist. Und natürlich auch, dass sie kostenlos und offen zugänglich ist. Unser Ziel ist, möglichst schnell ein möglichst genau annotiertes Bakteriengenom online zur Verfügung zu stellen. Alle unsere Ergebnisse werden mit wissenschaftlichen Methoden erarbeitet. Es sind die gleichen Methoden die wir verwenden, wenn wir an einer “offiziellen” Veröffentlichung arbeiten. Weil unsere Ergebnisse vorläufig und nicht peer reviewt sind, müssen die Leser natürlich kritisch sein. Aber kritisch sollte man bei der Analyse von wissenschaftlichen Daten immer sein, egal ob es eine “offizielle” Analyse ist oder nicht.
WG: Kann anhand eurer Daten der Ursprung der Epidemie rekonstruiert werden?
Der E. coli Stamm is Ergebnis eines normalen Evolutionsprozesses
MM: Leider können wir das mit unserer vorläufigen Analyse nicht. Das Genom dieses E. coli-Stamms scheint sehr ähnlich zu bekannten, eng verwandten E. coli-Bakterien zu sein. Der Stamm ist wahrscheinlich das Ergebnis eines normalen Evolutionsprozess von E. coli in irgendeiner spezifischen Mikroumgebung. Dieser Stamm scheint weniger neue Gene im Genom tragen, als vielmehr eine Kombination von bekannten Genen, die ihn insgesamt pathogener machen.
WG: Was sind bislang die wichtigsten Ergebnisse euer Analyse?
MM: Unsere Genomannotation ist letztendlich das Bezugssystem für weitere, detailliertere Analysen. Wir identifizieren die Gene und leiten deren Funktionen ab. Wahrscheinlich sind es zwei Plasmide (zusätzliche, ringförmige DNA-Moleküle, WG), die diesen E. coli Stamm so pathogen machen. Eines enthält viele Gene, die bei der Anhaftung der Zellen an die Darmwand und der Pathogenität eine Rolle spielen. Ein zweites Plasmid mit wichtigen Resistenzgenen gegen Antibiotika könnte eine weitere wichtige Besonderheit dieses E. coli Stamms sein.
Es ist wichtig, dass die Forscher das Genom weiter analysieren, speziell im Hinblick auf Pathogenität und Virulenz für den Menschen. Die unterschiedlichen Antibiotika-Resistenzen, die Vielfalt der Gene, die bei der Adhäsion und Kolonisation beteiligt sind, sowie die Toxine und Hämolysine sind aktuell einige wichtige Schwerpunkte der Analyse.
WG: Marina, vielen Dank für das Interview.
Kommentare (19)