ResearchBlogging.orgEs geht oft unter in der Diskussion um die Sequenzierung menschlicher Genome, dass die dafür entwickelte Technologie einen weiteren ebenso bedeutenden “Neben-Nutzen” hat:
Die Analyse von Genexpression.


Vielleicht ist es einfacher zu erklären welchen Vorteil es hat 1000 menschliche Genome zu sequenzieren, als den Vorteil eben dieser Analysen darzustellen.

Was macht die Genexpression so besonders interessant?

Viele Krankheiten aber auch entwicklungsbiologische oder evolutionären Vorgänge können auf der Grundlage dieses Merkmals erforscht werden, da es in sehr enger Verbindung sowohl zum Genotyp als auch zum Phänotyp steht. Wie stark ein Gen abgelesen wird, ist also oft ein entscheidender Punkt bei der Übersetzung der DNA-Sequenz in einen Phänotyp.

Das Vorkommen des mRNA Moleküls ist oft die beste Annäherung an das betreffende Protein-Level, da dieses (ein Schritt weiter Richtung äußerlich sichtbarem Phänotyp) sich leider technisch noch sehr viel schlechter messen lässt. Man ist sich allerdings bewusst, dass es auch bei der Translation noch Regulationsmechanismen gibt und so das Level an Protein im Einzelfall nicht unbedingt streng an das mRNA Level gekoppelt ist.

Wie misst man das Vorkommen bestimmter mRNA Moleküle?

Bis vor kurzem waren dazu sogenannte Microarrys die fortschrittlichste Technik. Deshalb ein (zu) kurzer Überblick wie sie funktionieren: Man benutzt einen Glasträger, auf den DNA aufgebracht ist, die komplementär zu der interessierenden mRNA ist. Diese mRNA wird (häufig umgeschrieben als cDNA) mit einem Fluoreszenzfarbstoff markiert und dann auf den Glasträger aufgebracht, wo sie an der betreffenden komplementären Sequenz “hängen bleibt”. Wie viel an den Glasträger gebunden hat ist dann über die Stärke der Fluoreszenz messbar. Ein Vorteil der Technik ist die hohe Parallelisierbarkeit, so können auf einem Glasträger zig Tausende Gen-Proben untergebracht und parallel gemessen werden. Ein Beispiel zeigt dieses Video:

Die im Video dargestellte Technik ist dabei die fortschrittlichste, die beiden zu vergleichenden Proben werden auf einem einzelnen Chip analysiert.
Für alle gängigen Modell-Organismen gibt es also fertig bedruckte Chips (beispielsweise von Affymetrix ).

Warum sollte diese Technik jetzt also aussterben?

Zunächst einmal hat sie einige Nachteile, die in den zitierten Papern und auch sonst mit ausgefeilter statistischen Methoden behoben werden. Das Fluoreszenssignal kann von Experiment zu Experiment stark variieren. Wirklich gut vergleichen kann man nur die Signale von einem einzigen Chip, daher benutzen die fortschrittlichsten Systeme auch die in dem Video dargestellte Technik, bei der die beiden Vergleichsproben auf einem einzigen Chip analysiert werden. Doch selbst hier gibt es Schwierigkeiten: Eine gewisse Hintergrundfluoreszenz durch ein Reflektieren des Chip-Materials muss von der Geasamtfluoreszenz abgezogen werden, dieses “Rauschen” verwischt dann natürliche Unterschiede in schwachen Signalen. Die Signalstärke muss außerdem mit einem “house-keeping” Gen (einem Gen in allen Geweben etwa gleichstark exprimiert ist) oder mit dem Mittelwert der Fluoreszenzstärke verrechnet werden um die beiden Werte (für Rot und Grün selbst auf einem Chip!) vergleichen zu können. Vergleiche zwischen Ergebnissen von verschiedenen Chips des gleichen Herstellers im gleichen Labor oder gar unterschiedlichen Labors werden dann jeweils noch schwieriger.

Peditti et al. zeigen, dass exakte Vergleich zwischen Chips unterschiedlicher Hersteller (ABI, Affymetrix, Agilent, Illumina,und ein selbst gedruckter) fast schon Voodoo sind. Die Chips haben im besten Fall (Affymetrix und Agilent) nur nur etwa 60% Übereinstimmung in den Transkripten, die sie überhaupt detektieren können. Bei den unterschiedlich exprimierten Genen (aus Maus-Wildtyp und Mutanten) sieht es dann noch düsterer aus:

Four genes were selected by ABI, 130 by Affymetrix, 3,051 by Agilent, 54 by Illumina, and 13 by LGTC [dem selbstgedruckten]

Im nächsten Satz erfährt man dann aber, dass durchaus 2 unterschiedlich exprimierte Gene von allen 5 Systemen erkannt wurden… wow

Die Autoren schließen aus diesen Ergebnissen, dass es zweckmäßig wäre Versuche mit zwei verschiedenen modernen Chips (Affymetrix und Agilent) durchzuführen. Werden Ergebnisse der beiden Systeme dann statistisch korrekt aufbereitet böten diese wegen ihrer Unterschiedlichkeit zwei verschiedene Blickwinkel. Diese Herangehensweise wäre dann was die Chip basierten Methoden betrifft optimal. Dass die Arrays nicht vollkommenen Murks produzieren zeigte sich lediglich darin, dass die aus den einzelnen unterschiedlich exprimierten Genen identifizierten Stoffwechselwege eine größere Übereinstimmung zwischen den Systemen hatten.

Doch was macht man wenn man an einem Organismus arbeitet für den es keine fertig bedruckten Chips gibt? Man kann zwar auch einen eigenen Chip drucken, doch dieser ist den kommerziell angebotenen in der Reproduzierbarkeit unterlegen.

Eine Alternative ist durch den Fortschritt bei den Sequenziermethoden entstanden.

Man bekommt einen Eindruck von der Genexpression auch durch eine Sequenzierung der hergestellten cDNA Bibliotheken (die Gesamtheit der verschiedenen Moleküle aus einer Präparation nennt man cDNA-Bibliothek). Allerdings muss man ein Gen nicht unbedingt vollständig sequenzieren, um festzustellen dass es in der Bibliothek einmal vorhanden ist.
Das sequenzierte Stück sollte lang genug sein um typisch für das betreffende Gen zu sein, und so kurz wie möglich um möglichst günstig viele Stückchen sequenzieren zu können. Hier kommen dann sogenannte Tags ins Spiel:

Dabei wird, wie man auch in der Zeichnung unten sehen kann, die cDNA Bibliothek mit einem Enzym das eine nur vier Basen lange “Erkennungssequenz” hat geschnitten, so erhält man nur den Bereich jeweils am 3′ Ende des Moleküles (vorausgesetzt dieses hat irgendwo die 4-Basen Sequenz, was sehr wahrscheinlich ist). Der folgende Schritt ist dann noch etwas cleverer: An die entstandene Schnittstelle wird ein Adapter ligiert, dieser trägt eine Erkennungssequenz für ein Enzym, das 17 Basen stromabwärts von dieser Sequenz schneidet. So erhält man eine 17 Basen Sequenz plus den 4 Basen Restriktionsschnittstelle, also ein 21 Basen lange bekannte Sequenz, ein “Tag”.

Früher hat man nun die entstandenen Schnipsel zusammenligiert und dann sequenziert, in dieser alten Form ist die Methode bereits 1995 beschrieben.

Zwei im Moment verfügbare Systeme (Illumina Solexa und ABI Solid) sequenzieren nur extrem kurze DNA Teilsequenzen, was für Genomsequenzierung mit großen Schwierigkeiten verbunden ist. Der unschlagbare Preis pro Base lässt sich dann aber in Verbindung mit der genannten Technik wie folgt nutzen:

i-a45f46c8bf3de29e3d577072d746fbd8-tag_seq-thumb-500x316.png

Aus einer alten Präsentation von mir, inzwischen gibt es 5 Millionen Tags pro “lane” pro Sequenzierlauf, die Tags sind inzwischen 21 statt 18 Basen lang

t’Hoen et al. demonstrieren die Überlegenheit der Tag-Sequenzierung (Digital Gene Expression tag profiling; DGE). Zunächst mit technische Replikaten:
Es wurden für die gleichen RNA-Isolationen (von einem Maus Wildtyp und einer Mutanten) je 3 Experimente in unterschiedlichen Labors durchgeführt. Bei den Chip-Methoden schwankte die Korrelation zwischen den Messwerte zwischen 0.98 (Agilent) für und 0.77 (selbst bedruckt) für die beiden technischen Wiederholungen.
Letzteres ist besonders tragisch, wenn man an einem nicht-Modellorganismen arbeitet für den es keine fertigen, technisch sehr weit entwickelten Chips gibt.
Die Tag-Sequenzierung erreicht einen mit sehr guten Chips vergleichbaren Wert von 0.98. Dabei sind allerdings die Unterschiede zwischen Wildtyp und Mutante für die technischen Replikate der Tag Sequenzierung sehr viel konstanter.

Es gelang durchschnittlich 2.5 Millionen Tags pro Experiment zu sequenzieren (inzwischen ein halbes Jahr später schafft man 5 Millionen). Daraus konnten mit Hilfe von Bayesscher Statistik (das klingt wirklich schrecklich auf Deutsch) 1559 hoch- und 1620 herunterregulierter Gene in den Mutanten im Vergleich zu den Wildtypen gefunden werden. Die bayessche Statistik ersetzt das Normalisieren und vermeidet so einige Schwächen der Analyse, wie sie auch in Array Experimenten auftreten. Ein Normalisieren mit einem House-keeping Gen wäre sonst auch für die Tag-Sequenzierung unumgänglich, da die absolute Anzahl von sequenzierten Tags natürlich schon von Experiment zu Experiment schwankt.

Wichtig ist aber nun was diese 2,5 Millionen Tags erlauben: Mann kann damit die Expression von Genen in einem Bereich von 5 Tausend Zählungen pro 1 Million Tags bis zu 2 ( für ein in allen Proben gefundenes Transkript oder 0,8 in je einem Experiment) Zählungen pro einer Million Tags bestimmen, das bedeutet eine “dynamische Reichweite” von über 1000x.

In den analysierten Geweben der Maus konnten so über 28000 Tags, die auf die anhand der abgebildeten Methode erwarteten Art zu Genen gehörten gefunden werden. Es gab auch noch einige andere Tags, die zu ungewollten nicht am weitesten 3′ gelegenen Restriktonsschnittstellen gehörten, diese Schwierigkeit der Präparation und der Analyse sollte man nicht verschweigen.

t’Hoen et al. stellen dann einen Vergleich mit einem theoretischen SAGE Experiment sequenziert mit der alten Sanger-Methode an. Die damit unter erheblichem Kosten- und Zeitaufwand erreichbare Sequenziertiefe entspricht etwa 1/60 der Solexa-Tag Sequenzierung. Die Anzahl von zwischen Wildtyp und Mutanten gefundenen unterschiedlich exprimierten Gene sinkt 15-fach von 3179 auf 200. Detektiert werden können nur noch Transkripte, die in der tiefen Sequenzierung 91 mal in einer Million gezählt wurden.

Durch das genannte “Hintergrundrauschen” in den Array-Systemen konnten unterschiedliche exprimierte Transkripte nur detektiert werden, wenn sie stark exprimiert waren: Im Durchschnitt 106 mal in einer Million Tags.

Doch auch in einer anderen Hinsicht hat die Fluoreszenztechnik Schwierigkeiten: Der Grad der Expressionsänderung, wie er mit der Sequenzierung gemessen wurde entspricht sicher eher der Realität. Diese Änderung war in Einzelfällen ein über 10 facher Unterschied zwische Wildtyp und Mutante, während mit den Arrays nur etwa 2-fache Änderungen gemessen wurden.

Wenn ein Experiment in einem Modellorganismus zur Zeit schnell und billig durchgeführt und ausgewertet werden soll sind die beiden besten Array-Systeme sicher noch eine Option. Wartezeiten an den aller Orten voll ausgelasteten Sequenzierern könnten für in der Array-Analyse eingearbeitete Gruppen vielleicht ein Grund sein auf Syseteme von Agilent oder Affymetrix zurückzugreifen.

Auf gar nicht all zu lange lange Sicht wird sich das aber änden. Arrays sind mausetot, tot wie ein Dodo. Das ist nicht nur wenn man bereits mit den neuen Methoden arbeitet durchaus eine gute Nachricht, denn durch die neue Sequenzier-Methode darf man sich schonmal auf überraschende Resultate freuen. Arrays waren nämlich vor allem ein geschlossenes System. D.h. man konnte zwar mit sehr viel Aufwand auch für seinen Nicht-Modellorganismus einen Chip anfertigen lassen, man fand aber immer nur was man suchte, also auf dem Chip aufgetragen hatte.
Die neue Technologie verspricht interessante und unerwartete Entdeckungen.

Technischer Nachtrag:
Eine weitere, seit Erscheinen des Papers von t’ Hoen hinzugekommene Neuerung ist sogenanntes “Multiplexing”. Dabei können dann durch unterschiedliche Adaptoren mehrere Proben auf einer “lane” (das ist ein Abschnitt auf dem Glasträger auf dem die Probe zum Sequenzieren aufgebracht wird) des Sequenziergeräts analysiert werden. Anhand unterschiedlicher Adaptorsequenzen können die beiden proben dann nachträglich “bioinformatisch” wieder getrennt werden. Da gleichzeitig die Anzahl der Tags pro lane auf mittlerweile 5 Millionen gestiegen ist aber eine Sequenziertiefe vin 1-2 Millionen Tags durchaus ausreicht, ist dies sehr zweckdienlich.
Die Kosten für eine lane liegen derzeit bei etwa 1400€, die Experimente müssen allerdings als biologische Triplikate (also unterschiedliche cDNA Präparationen) durchgeführt werden. Analysiert man vier Proben auf einer lane macht das einen Preis pro Probe von derzeit etwa 1000€. Dieser Preis fällt aber ständig weiter.

Pedotti, P., ‘t Hoen, P., Vreugdenhil, E., Schenk, G., Vossen, R., Ariyurek, Y., de Hollander, M., Kuiper, R., van Ommen, G., den Dunnen, J., Boer, J., & de Menezes, R. (2008). Can subtle changes in gene expression be consistently detected with different microarray platforms? BMC Genomics, 9 (1) DOI: 10.1186/1471-2164-9-124

‘t Hoen, P., Ariyurek, Y., Thygesen, H., Vreugdenhil, E., Vossen, R., de Menezes, R., Boer, J., van Ommen, G., & den Dunnen, J. (2008). Deep sequencing-based expression analysis shows major advances in robustness, resolution and inter-lab portability over five microarray platforms Nucleic Acids Research, 36 (21) DOI: 10.1093/nar/gkn705

Kommentare (6)

  1. #1 Alexander Knoll
    April 8, 2009

    Über die nächste Stufe hab ich gerade auf Genetic Future gelesen: Mit NextGen Sequenzierung Genexpression einer einzigen Zelle untersuchen!

  2. #2 Emanuel Heitlinger
    April 9, 2009

    ja mit dem zeug muss ich mich auch bald rumschlagen, ich habs nämlich noch nicht geschafft aus den zigtausend Zellen von einer Hand voll Wurmlarven 2µg total RNA zu isolieren…
    …so rein theoretisch ist da natürlich ne tolle Sache:-)…

    Und wenn es so weiter geht mit den immer größeren generierbaren Datenmengen braucht man auch bald keine Tags mehr, sondern kann direkt mRNA-Seq machen…

  3. #3 Christian
    Juni 3, 2009

    Hallo ich habe eine Frage zu dem Next Generation Seq.
    Wie du beschrieben hast, dir die gesamte mRNA des Organismus, welches man untersuchen möchte isoliert, wodurch wir die cDNA-Bibliothek erhalten. Diese wird dann mit den oben beschriebenen Enzymen geschnitten, wodurch man möglichst kurze und möglichst spezifische Sequenzen erhält.
    All diese spezifischen Sequenzen (Tags) werden dann auf einem Chip aufgetragen, wodurch diese millionenfach parallel Sequenziert werden.
    Diese sequenzierten Fragmente (Reads) werden dann wozu verwendet? Also ich meine jetzt für die Messung der Expression.
    Ich mappe diese an das untersuchte Genom und zähle dann wieviele Hits jede Sequenz bekommt?
    Habe ich das bisher richtig verstanden?

  4. #4 Emanuel Heitlinger
    Juni 4, 2009

    Ja, Christian, vollkommen richtig!
    Die 21 Basen sind in der Regel eindeutig zuordenbar. Mann kann sogar erstmal die Restriktionsschnittstellen suchen und dann eine Aufstellung machen was man erwartet: Die 21 auf die am weitesten 3` gelegene Restriktionsschnittstelle folgenden Basen, in jedem exprimierten Gen. (Man findet dann auch andere tags, die man nicht erwartet hätte, in genomischer Verunreinigung oder an der von 3` gezählt 2. Restiriktionsschnittstelle. Das Enzyme arbeiten ja auch nicht 100% zuverlässig, mit diesen Fehlern muss man dann arbeiten-im Moment werden die entsprechenden tags meist einfach ignoriert.)

    Man kann die Tags natürlich auch nur auf ein -beispielsweise mit 454 sequenziertes- Transkriptom mappen. Nach diesem Muster wird es wahrscheinlich einige Studien geben bevor der Preis für ein Genom weit genug im Keller ist, dass man gleich das ganze Genom sequenziert.

    Freut mich, dass jemand die sehr technischen Posts liest!

  5. #5 Christina
    Juni 8, 2009

    Liebe Genexpressionisten,
    bei der sog. “SuperSAGE” bzw. SuperTAG-digital gene expression (ST-DGE) Technik werden sogar 26 bp lange tags sequenziert, die wesentlich besser zu den Transkripten zugeordnete werden können. Ausserdem können von unbekannten Transkripten PCR-Primer oder Sonden abgeleitet werden.
    Die Technik wird von einem Service Provider aus Frankfurt am Main angeboten, (www.genxpro.de) die ausserdem noch eine PCR-Bias-freie Quantifizierung der tags garantieren und auch cDNA normalisieren und sequenzieren. Die Kosten für ST-DGE liegen bei etwa 4.000 Euro für mehrere Millionen Tags (sie benutzen Solexa), inclusive Bioinformatik (BLASTs, p-values)…
    Schöne Grüße,

  6. #6 Emanuel Heitlinger
    Juni 9, 2009

    Hi Christina,
    schönes “Infomercial” da musste ich glatt mal schauen wie das Enzym heißt das ihr statt MneII benutzt: EcoP15I produziert die 26b tags , schön! Ich hoffe das könnt ihr nicht patentieren 😉
    Nix gegen rein komerzielle Anbieter, aber n bischen mehr selber machen hat ja noch keinem geschadet… spart man dann ja schon n bischen was und lernt auch immer was dazu.