“Lässt du dich gegen SARS-CoV-2 impfen?” Diese Frage wurde mir in den letzten Wochen mehrfach gestellt und meine Antwort lautet: ja. Sobald alle gefährdeten Gruppen geimpft sind, werde ich mich impfen lassen. Ich möchte hier kein Plädoyer für das Impfen schreiben oder mich mit den Fürs und Widers auseinandersetzen. Das wurde sicher oft genug an anderer Stelle getan. Ich bin auch keine Vakzinologin, Immunologin oder Mikrobiologin und kann großartig mit Impfwissen auftrumpfen.
Stattdessen möchte ich euch lieber auf eine bioinformatische Reise mitnehmen, und den genetischen Inhalt des Impfstoffes genau unter die Lupe nehmen. Ich bin über diese wirklich großartige Zusammenfassung von Bert Hubert (übersetzt von Friedrich Zahn) gestolpert, der die fantastischen Tricks und Kniffe beschreibt, die für die Wirksamkeit des Impfstoffes sorgen. Und beim Lesen des Beitrags wurde mir einmal mehr bewusst: “Wissenschaft ist sooooo cool!”
Vermutlich habt ihr bereits mitbekommen, dass es sich bei dem BioNTech/Pfizer SARS-CoV-2 Impfstoff um einen mRNA Impfstoff handelt. mRNA steht kurz für messenger RNA (im Deutschen auch Boten-RNA genannt). Eine mRNA ist sozusagen eine Kopie, die von einem Gen auf unserer DNA gemacht wird, um die Information aus dem Zellkern (wo sich die DNA befindet) in die Zelle transportieren zu können, wo sie als Bauanleitung für ein bestimmtes Protein fungiert.
Bert Hubert nutzt in seinem Beitrag einen schönen Vergleich: Er beschreibt die DNA als Festplattenspeicher unseres Körpers: widerstandsfähig, redundant, ausfallsicher, zuverlässig. Die RNA hingegen ist die flüchtige “Arbeitsspeicher”-Variante der DNA: schneller und vielseitiger, aber eben auch fragiler und anfälliger. Daher muss der Pfizer/BioNTech mRNA Impfstoff bei Tiefsttemperaturen gelagert werden. Andererseits haben mRNA Impfstoffe den Vorteil, dass eine große Anzahl Impfdosen innerhalb weniger Wochen hergestellt werden kann.
Bioinformatiker sehen DNA und RNA ja nicht als komplexe Moleküle, sondern als simple Zeichenketten. Und deswegen werden wir die Zeichenkette des mRNA Impfstoffs (und was sie so besonders macht) genauer unter die Lupe nehmen. Für ein wenig Hintergrundwissen über DNA, RNA, Nukelobasen, Proteine und Aminosäuren empfehle ich euch erst noch diesen Beitrag zu lesen. Kurz zusammengefasst solltet ihr folgendes wissen:
Ziel einer aktiven Schutzimpfung ist es, dem Immunsystem des Körpers beizubringen, auf einen Krankheitserreger (Virus oder Bakterium) schnell und wirksam zu reagieren. Das geschieht in der Regel, indem wir unseren Körper mit einem geschwächten oder entschärften Erreger konfrontieren, an dem das Immunsystem die Abwehrreaktion trainieren kann. Werden wir dann mit dem tatsächlichen Erreger infiziert, erkranken wir im besten Fall gar nicht oder nur sehr leicht.
Auch eine mRNA-Impfung trainiert das Immunsystem gegen den Erreger, aber auf eine besonders gezielte und leistungsstarke Weise. Wir müssen keinen geschwächten oder entschärften Erreger spritzen, stattdessen verabreicht man mRNA, die den genetischen Code für ein bestimmtes Protein enthält. Bei diesem Protein handelt es sich um ein sogenanntes Antigen, das eine Immunantwort des Körpers auslöst. Und genau diese Immunantwort soll unser Körper trainieren. Unser Körper lernt, genau die Erreger zu bekämpfen, die solche Antigene auf ihrer Oberfläche tragen. Die RNA selbst erzeugt keine Immunreaktion und wird nach kurzer Zeit in der Zelle abgebaut.
Für eine gezielte Immunreaktion gegen einen bestimmten Erreger sind unter anderem B-Lymphozyten zuständig. Es gibt unzählige verschiedene B-Lymphozyten mit unterschiedlichen Bindungsstellen an ihrer Oberfläche. Zu den Antigenen auf der Oberfläche eines bestimmten Erregers passen nur einige wenige B-Zellen. Durch Bindung an dieses spezifische Antigen werden die B-Lymphozyten aktiviert, sich zu vermehren. Die Zahl der B-Lymphozyten, die den Erreger erkennen können, nimmt also stark zu. Ein Teil der B-Lymphozyten reift zu Plasmazellen, die Antikörper speziell gegen den Erreger produzieren. Diese Antikörper sind Proteine, die spezifisch an das bestimmte Antigen binden. Sie machen Krankheitserreger unschädlich, indem sie beispielsweise Bakterien miteinander verkleben oder Viren die Fähigkeit nehmen, in Körperzellen einzudringen und sich dort zu vermehren. Außerdem werden Erreger, die mit Antikörpern markiert sind, leichter von der Immunabwehr aufgespürt.
Bis unser Immunsystem diese Immunantwort gegen einen bestimmten Erreger gelernt hat, kommt es zu Krankheitsbeschwerden. Beim ersten Kontakt, bilden sich erst nach einigen Tagen Antikörper. Nach erfolgreicher Bekämpfung des Erregers nimmt deren Konzentration wieder ab. Ein Teil der B-Lymphozyten entwickelt sich jedoch zu Gedächtniszellen, die für Jahre oder manchmal lebenslang erhalten bleiben. Bei einem erneuten Kontakt mit dem gleichen Erreger setzt die Produktion der Antikörper viel schneller ein und erreicht größere Mengen. Die Immunreaktion ist gezielter und schneller; Krankheitserscheinungen sind schwächer oder treten gar nicht erst auf.
Fun fact:
Das Wort Vakzination bzw Vakzinierung stammt vom lateinischen Wort für Kuh (vacca) ab. Ab Ende des 18. Jahrhunderts wurde der Wirksamkeitsnachweis einer Pockenimpfung mit dem Vacciniavirus erbracht (statt mit menschlichen Pockenviren als Lebendimpfstoff), die seltener zu einer Erkrankung führte. Das Vacciniavirus wurde ursprünglich für ein Kuhpockenvirus gehalten. Inzwischen ist bekannt, dass das Vacciniavirus näher mit den Pferdepocken als mit den Kuhpocken verwandt ist.
Im Falle von SARS-CoV-2 trainieren wir gezielt gegen das berühmt-berüchtigte Spike-Protein. Die Verpackung des SARS-CoV-2 ist mit Spike-Proteinen gespickt. Es nutzt diese Proteine, um an menschliche Zellen anzudocken. Das Virus kann dann mit der Zellmembran verschmelzen und sein Erbgut ins Zellinnere entlassen. Das Spike-Protein ist das Antigen, dass unser Körper kennenlernen soll. Der Impfstoff enthält mRNA, der dieses Spike-Protein beschreibt. Und zwar nur dieses Protein und nicht das gesamte Virus. Durch clevere chemische Tricks gelangt der Impfstoff in einige unserer Zellen. Diese produzieren das Spike-Protein in großen Mengen. Unser Immunsystem kann an diesem Protein trainieren und Gedächtniszellen entwickeln. Werden wir dann mit SARS-CoV-2 infiziert, sind wir für eine schnelle und gezielte Abwehrreaktion gewappnet.
Jetzt schauen wir uns die 4284-Zeichen-lange Kette des mRNA Impfstoffs im Detail an. Die komplette Zeichenkette könnt ihr bei der WHO einsehen. Die mRNA besteht aus mehreren Abschnitten, die wir uns im Folgenden näher angucken.
Der Code des Impfstoffes startet mit den folgenden zwei Nukleotiden (als Kappe bezeichnet): GA. Diese Kappe sorgt dafür, dass die mRNA von den Ribosomen erkannt wird. Ribosomen sind quasi die “Übersetzer”, die die Nukleotid-Zeichenkette in eine Aminosäure-Zeichenkette übersetzen und dabei das Protein “zusammenbauen” (quasi eine Art 3D-Drucker für Proteine). Die Kappe erhöht außerdem die Halbwertszeit der mRNA. Je langsamer die mRNA in der Zelle abgebaut wird, desto häufiger kann sie übersetzt und desto mehr Protein hergestellt werden.
Es folgt die sogenannte Leitsequenz oder 5′-UTR. UTR steht für untranslated region, also ein nicht-übersetzter Abschnitt. Dieser Teil wird nicht in Aminosäuren übersetzt und landet damit nicht im Protein. Dieser Abschnitt dient zur Steuerung der Herstellung des Proteins. Er enthält zum Beispiel die Bindungsstelle für das Ribosom. Das Ribosom muss physisch in Kontakt mit dem RNA-Strang sein, damit die Herstellung des Proteins funktionieren kann. Diese Bindungsstelle heißt Kozak-Sequenz, benannt nach der US-amerikanischen Biochemikerin Marilyn Kozak.
Zusätzlich enthält die Leitsequenz übergeordnete Informationen, etwa wann und wie oft die Übersetzung in Proteine geschehen soll. Für den Impfstoff wurde die “dringlichste” bekannte Version der Leitsequenz gewählt, basierend auf einem Gen, das dafür bekannt ist, dass es zuverlässig eine große Zahl an Proteinen herstellt.
Die Leitsequenz des mRNA Impfstoffes sieht folgendermaßen aus:
GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC
Es fällt auf: Statt den für RNA üblichen vier Nukleinbasen A, C, G und U finden wir statt des U’s ein Ψ. Dies ist eine der außergewöhnlich schlauen Lösungen des Impfstoffs. Unsere Zellen sind extrem skeptisch gegenüber fremder oder synthetischer RNA and setzen alles daran, diese zu zerstören, bevor sie ihre Zielzellen erreichen. Damit sich die mRNA am Immunsystem vorbeimogeln kann, verwendet man ungewöhnliche Nukleoside. Der Impfstoff enthält eine minimal veränderte Form des Us, nämlich 1-Methyl-3’-Pseudouridylyl, dargestellt als Ψ. Damit kann die mRNA nicht von RNAsen abgebaut werden und ein Immunangriff wird unterdrückt. Alle für die Herstellung des Proteins relevanten Teile der Zelle erkennen das Ψ aber als reguläres U an.
Hier möchte ich gleich einem der vielen Aufschreie gegen diesen Impfstoff entgegenargumentieren: Oft höre ich die Frage “Wie kann es sein, dass der Impfstoff in so kurzer Zeit entwickelt wurde?”. Nun, wir ernten hier die Früchte der in der Vergangenheit geleisteten wissenschaftlichen Grundlagenforschung. Viele der verwendeten “Tricks” sind nicht neu und wurden schon vorher entdeckt und erforscht. An dieser modifizierten Art der mRNA zum Beispiel wird schon seit Jahren insbesondere für die Regeneration von geschädigtem Herzmuskelgewebe geforscht. Die Entdecker:innen der Ψ-Ersetzungsmethode Katalin Karikó und Drew Weissman mussten etwa 15 Jahre dafür kämpfen, dass ihre Forschung finanziert und akzeptiert wurde, weil man den weitreichenden Nutzen damals noch nicht absehen konnte.
Der nächste Abschnitt der mRNA enthält die Information zur Herstellung des Signalpeptids. Als Peptide bezeichnet man kurze Aminosäure-Ketten (zum Beispiel Teilstücke von Proteinen). Das Signalpeptid ist das erste Teilstück des Spike-Proteins und entscheidet über dessen Bestimmungsort. Es ermöglicht, dass das Protein (über das Endoplasmatische Retikulum) aus der Zelle hinaus transportiert werden kann, um dort von unserem Immunsystem erkannt zu werden und den Lernprozess unseres Immunsystems zu starten.
Das Signalpeptid ist nicht sehr lang. Schauen wir uns die Zeichenketten der Impstoff-RNA im Vergleich zur echten Virus-RNA an. Die Zeichenkette ist in Dreiergruppen gegliedert: Drei Nukleotide sind ein Codon und werden in eine Aminosäure übersetzt.
Wir sehen, dass sich die RNAs an manchen Stellen unterscheiden. Die resultierenden Aminosäuren bleiben jedoch unverändert. Das Signalpeptid im Impfstoff besteht aus genau den gleichen Aminosäuren wie im Virus selbst. Wie kann sich dann die RNA unterscheiden? Und wozu hat man diese Unterschiede in die Impfstoff-RNA eingefügt?
Wie oben erwähnt, gibt es 64 mögliche Dreierkombinationen von Nukleotiden und damit mehr als die 20 verschiedenen Aminosäuren. Das heißt, es gibt für fast alle der Aminosäuren mehrere verschiedene RNA-Codons (Synonyme könnte man sagen). Oft unterscheiden sich die Codons für eine Aminosäure nur im letzten Nukleotid. Zum Beispiel wird sowohl CCU, CCG, CCA und CCC in die Aminosäure Prolin übersetzt. Auch alle im Impfstoff vorgenommenen Ersetzungen sind Synonyme. Die Aminosäuren verändern sich nicht. Wozu dann überhaupt Änderungen einfügen? Auch hier geht es wieder um Effizienz: RNA, die viele C’s und G’s enthält, wird effizienter in Proteine verwandelt. Zu diesem Zweck wurden in der Impfstoff-RNA möglichst viele Zeichen durch C’s und G’s ersetzt.
Die nächsten 3777 Zeichen der Impfstoff-RNA enthalten den genetischen Code (also den Bauplan) für die Herstellung des Spike-Proteins. Sie sind in ähnlicher Weise optimiert, das heißt, es wurden möglichst viele C’s und G’s eingefügt ohne die resultierende Aminosäure-Kette zu verändern. Das gilt für alle, bis auf zwei Aminosäuren des Proteins.
Zwei der Aminosäuren wurden durch eine andere Aminosäure ersetzt (nämlich Prolin). Der Grund liegt verborgen in der 3D-Struktur (oder Raumstruktur) des Proteins. Bis hier haben wir Proteine als Aminosäure-Kettenmoleküle betrachtet. Tatsächlich faltet sich diese Kette (2D-Struktur) aber zu einer 3D-Struktur. Vergleichbar mit einem Faden, den ihr zusammenknüllt. Die räumliche Form des Spike-Proteins ähnelt einem Stachel oder Dorn (engl. spike). Diese Form nimmt das Protein jedoch nur an, wenn es in die Virus-Verpackung (als Kapsid bezeichnet) verbaut wird. Die Idee des Impfstoffs ist es aber (wie oben erwähnt), nicht das ganze Virus oder Kapsid zu erzeugen, sondern nur das eine spezifische Protein, das als Erkennungsmerkmal des Virus ausreicht. Das Problem an der Sache: ein freies Spike-Protein nimmt eine völlig andere Form an. Unser Körper würde also ein falsches Erkennungsmerkmal lernen und den eigentlichen “Täter” später nicht erkennen.
Auch hier haben wir riesiges Glück, dass wir auf bereits vorangegangen Forschungsarbeiten zurückgreifen konnten. 2017 veröffentlichten Forscher:innen, dass das Ersetzen zweier bestimmter Aminosäuren dazu führt, dass das Spike-Protein (damals schon aus SARS-CoV-1 und MERS bekannt) seine Stachelform einnimmt, auch ohne Teil der Virus-Verpackung zu sein. Somit kann unser Immunsystem allein auf diesem Protein lernen, woran es den Eindringling erkennt, und im Ernstfall schnell und effizient reagieren.
Die Impfstoff-mRNA endet mit der sogenannten 3′-UTR gefolgt vom Poly(A)-Schwanz. Die 3′-UTR hat oft regulatorische Funktionen und sorgt auch wieder für RNA Stabilität und eine möglichst große Menge an produziertem Spike-Protein. Der Poly(A)-Schwanz ist (wie der Name sagt) eine lange Kette von A’s, mit der die mRNA endet. mRNA kann immer wieder verwendet werden, verliert dabei jedoch stets einige A’s am Ende. Sind diese aufgebraucht, wird die mRNA abgebaut und entsorgt. Der Poly(A)-Schwanz schützt also einerseits vor vorzeitigem Verschleiß, sorgt aber andererseits auch dafür, dass die mRNA schlussendlich durch so genannte Ribonucleasen (Enzyme, die RNA abbauen) entsorgt wird.
Wir haben uns jetzt aus informatischer Sicht die Zeichenkette der mRNA angeschaut und analysiert, was diese Zeichen bedeuten. Wie wird aus dieser Zeichenkette eine Flüssigkeit, die ich mir spritzen lassen kann? Zu Beginn der Impfstoffproduktion wurde dieser Code an einen DNA-Drucker geschickt, welcher aus der Zeichenkette echte DNA-Moleküle herstellt. Aus der Maschine kommt eine winzige Menge DNA, die (durch biochemische Methoden) in RNA umgewandelt wird. Um die Aufnahme durch Körperzellen zu ermöglichen, wird die mRNA mit einer cleveren Lipid-Verpackung umhüllt. Fertig ist der Impfstoff.
Eine gängige Sorge, die oft geäußert wird, ist die Frage, ob die mRNA unser Genom verändern kann. Tatsächlich würde das gegen alles verstoßen, was wir über Zellbiologie wissen. Die Kurzversion: mRNA-Impfstoffe wirken vollständig im Zytosol der Zelle und kommen nicht in die Nähe des Zellkerns, wo sich die DNA befindet. Die mRNA hat also keinen Einfluss auf die menschliche DNA, weder in Körperzellen noch in Keimbahnzellen. Sie wird (wie oben beschrieben) nach kurzer Zeit abgebaut. Nach dem Abbau der mRNA kann auch das Spike-Protein nicht weiter hergestellt werden. Was bleibt sind die Gedächtniszellen unseres Immunsystems, die nun dazu in der Lage sind, den Eindringling schnell zu erkennen und effizient zu bekämpfen. Die ausführliche Erklärung eines Mikrobiologen könnt ihr hier nachlesen. Wenn ihr trotzdem wegen des mRNA-Impfstoffes besorgt seid, hier die gute Info: Es ist sehr wahrscheinlich, dass es bald auch andere Arten von Impfstoffen gegen SARS-CoV-2 geben wird.
Für weitere Fragen zur SARS-CoV-2 Impfung haben das RKI und das Bundesministerium für Gesundheit Antworten zu den gängigen Fragen bereitgestellt.
]]>Kaffee ist ein sehr komplexes Getränk mit über tausend Verbindungen, von denen viele noch nicht identifiziert sind. Ich habe ja das Gefühl, dass sich die Wahrheiten in den Ernährungswissenschaften alle paar Jahre ändern. Aber klar ist es auch schwierig, die Einflüsse einzelner Lebensmittel zu erforschen. Nachdem die Auswirkung von Kaffee jahrelang umstritten war, ist man sich heute relativ einig, dass etwa zweieinhalb Tassen Kaffee am Stück oder fünf Tassen Kaffee täglich, nicht schädlich sind.
Die sensorischen Eigenschaften des Kaffees werden von verschiedenen Faktoren beeinflusst: Herkunft, Ernte, Aufbereitung, Röst- und Mahlgrad, Zubereitung. Durch das heiße Aufbrühen von Kaffee werden Polysaccharide (Vielfachzucker) freigesetzt, die unsere Sinne berühren: das sorgt nicht nur für das wohlige Aroma, sondern zum Beispiel auch für eine stabile Crema und das cremige Gefühl im Mund, das als „Körper“ bekannt ist.
Die Trinktemperatur hat großen Einfluss auf die wahrgenommenen Geschmackseigenschaften von Kaffee. Wie stark dieser Einfluss ist, und welche Temperatur die richtige für einen intensiven Kaffeegeschmack, hängt von der Kaffeesorte ab. Die ideale Serviertemperatur liegt irgendwo zwischen 50 und 85 Grad Celsius. Die sensorischen Eigenschaften von Kaffee sind bei 70 Grad Celsius am intensivsten. Schon nach 30 Minuten verliert Kaffee sein Aroma, wird bitter und entwickelt eine säuerliche Note.
Eine Alternative ist kalt gebrühter Kaffee. Er enthält weniger deprotonierte Säuren und ist daher verträglicher für diejenigen, die an Verdauungsproblemen leiden. Gleichzeitig verringert sich dadurch aber auch die antioxidative Aktivität des Kaffees. Die Menge des aufgenommenen Koffeins ist unabhängig von der Temperatur des Kaffees.
Früher galt Kaffee als Risikofaktor für Bluthochdruck, Osteoporose und Herz-Kreislauf-Erkrankungen. Heute ist die gängige Meinung, dass Kaffee eine Vielzahl von Komponenten enthält (unter anderem das Koffein selbst), die sich positiv auf die Gesundheit auswirken.
Kaffee trägt zum Beispiel wesentlich zur Gesamtaufnahme von Polyphenolen bei – mehr noch als Obst, Gemüse und Wein. Polyphenole spielen eine wichtige Rolle beim Schutz vor Krebs, senken das Risiko für Herz- Kreislauf-Erkrankungen, haben einen positiven Einfluss auf den Kohlenhydrat- und Fettstoffwechsel und verringern somit das Risiko für die Entstehung von Diabetes. Moderater Kaffeekonsum verringert das Schlaganfallrisiko und begrenzt die schädlichen Folgen. Zudem verstärkt Koffein bei Migräne und Kopfschmerzen die Wirkung üblicher Schmerzmittel.
Die optimale Menge an Kaffee liegt bei drei bis vier Tassen (300 bis 400 mg Koffein) täglich, jedoch nicht mehr als zweieinhalb Tassen (200 mg Koffein) am Stück. Noch besser: Ein süßes Stück dunkler Schokolade zur heißen Tasse Kaffee erhöht die Menge an Polyphenolen zusätzlich. Das Verhältnis von gesundheitsfördernden Verbindungen zu Koffein ist in Arabica-Kaffee übrigens höher als in anderen Sorten.
Studien deuten darauf hin, dass der Konsum von Koffein die kognitive Leistung älterer Menschen erhöhen kann. So kann eine Tasse Kaffee beim Frühstück den Leistungsabfall zwischen Morgen und Nachmittag verhindern. Koffein scheint auch die Reaktionszeit und das Arbeitsgedächtnis älterer Menschen zu verbessern. Der lebenslange Konsum von Koffein und Polyphenolen verringert den altersbedingten geistigen Verfall, sowie das Risiko für neurodegenerative Erkrankungen, wie Parkinson, Alzheimer, Demenz, und verzögert sogar deren Fortschreiten. Voraussetzung sind drei bis vier Tassen Kaffee täglich. Die Auswirkungen von Koffein auf die Entwicklung von Parkinson wurde bereits Ende der 1960er Jahre entdeckt. Bei täglichem Koffeinkonsum ist das Risiko, an Parkinson zu erkranken, um durchschnittlich 25 Prozent geringer.
Koffein gilt als die weltweit am meisten konsumierte psychoaktive Substanz. Koffein hat viele positive Wirkungen auf das Gehirn: Koffein bringt uns in Schwung, steigert die Konzentration und die körperliche Leistungsfähigkeit. Koffein erhöht die Wachheit, reduziert Müdigkeit, verkürzt die Reaktionszeit, verbessert die visuelle Aufmerksamkeit und kann die Aufmerksamkeit insbesondere bei langen, anspruchsvollen Aufgaben aufrechterhalten. Die Polyphenole im Kaffee verbessern außerdem die kognitive Leistungsfähigkeit und stimulieren die Gehirnfunktionen.
Kaffee macht uns nicht nur munter, er verbessert auch die Stimmung, steigert das Wohlbefinden, verhindert Depressionen und verringert angeblich sogar das Selbstmordrisiko. Kaffee ist das beliebteste Frühstücksgetränk. Seine positiven Auswirkungen auf die Stimmung können durch Sonnenstrahlen und den Duft von Brot noch verstärkt werden. Ich gebe zu, schon der Gedanke daran weckt in mir die gute Laune. Hinzu kommt das wohlige Gefühl einer wärmenden Tasse in der Hand. Ein Studie fand heraus, dass das Gefühl physischer Wärme, das Gefühl zwischenmenschlicher Wärme verstärkt, ohne dass sich die Personen dieses Einflusses bewusst sind. Kurz eine heiße Tasse Kaffee in der Hand gehalten und schon empfindet man sein Gegenüber als großzügiger, fürsorglicher und geselliger und fühlt sich somit wohler. Pro-Tipp fürs nächste Bewerbungsgespräch oder das nächste Date: am besten gemeinsam frühstücken.
In sehr großen Mengen kann Koffein den Schlaf beeinträchtigen, indem es die Schlaflatenz verlängert und die Gesamtschlafzeit und die Tiefschlafphasen verkürzt. Der Effekt ist aber viel geringer als allgemein behauptet. Die Wirkung ist am stärksten, wenn das Koffein vor dem Zubettgehen aufgenommen wird. Aber auch zwei Tassen am Morgen, können die Gesamtruhezeit um etwa zehn Minuten und die Schlafleistung um etwa drei Prozent verringern. Diese Auswirkungen treten aber eher bei Menschen auf, die nicht regelmäßig Kaffee trinken.
Als intensive Kaffeetrinkerin habe ich mir natürlich schon öfter Sorgen um eine Abhängigkeit gemacht. Aber ehrlich, es ist der Geschmack und das wohlige Gefühl, nach dem ich süchtig bin. Während meiner Schwangerschaft habe ich fast ausschließlich entkoffeinierten Kaffee getrunken und habe mich weder mehr noch weniger müde gefühlt. Genauso muss ich aber auch zugeben, dass Kaffee bei mir kaum einen aktivierenden Effekt zeigt. Weder bringt er mich in Schwung, noch lässt er mich schlechter schlafen.
Viele Daten deuten darauf hin, dass moderate Kaffeetrinker_innen keine körperliche Abhängigkeit von Koffein entwickeln. Bildgebende Untersuchungen beim Menschen zeigen, dass Koffein den Gehirnkreislauf von Abhängigkeit und Belohnung nicht aktiviert. Es gibt jedoch Entzugserscheinungen etwa einen Tag nach abruptem Koffeinentzug: Kopfschmerzen und Müdigkeit dauern jedoch in der Regel nicht länger als zwei Tage. Möchte man Kaffee (aus mir unerfindlichen Gründen) absetzen, kann man diese Symptome durch eine schrittweise Entwöhnung vermeiden. Der Entzug von Koffein hat auch nur geringe Auswirkungen auf die Leistung. Was aber tatsächlich häufig bei Entzug von Koffein sinkt, ist die gute Laune — aber diese Auswirkung spiegelt möglicherweise weitgehend die Erwartungen der Kaffeeliebhaber_innen.
Hohe Dosen von Koffein können bei einer kleinen Gruppe besonders empfindlicher Personen sogar Angstzustände hervorrufen und Panikattacken auslösen. Der häufige Konsum von Koffein führt jedoch auch bei genetisch anfälligen Menschen zur Toleranz gegenüber dieser Wirkung.
Leute, trinkt Kaffee! Kaffee ist Teil einer gesunden, ausgewogenen Ernährung. Die meisten Menschen können ihren Koffeinkonsum sehr gut regulieren, und holen damit nur das Beste aus dem Kaffee heraus. Wer am Abend noch eine Kanne Kaffe in sich hinein kippt, ist selbst Schuld. Aber so drei bis vier Tassen über den Tag verteilt, bringen euch in Schwung und halten euch körperlich und geistig fit. Ich trinke meinen Kaffee seither mit noch mehr Genuss und Freude (und versuche ihn wieder häufiger in Blogbeiträge statt Quellcode umzusetzen).
]]>Ein Fallbeispiel: Ein 14-jähriger Junge, der an einer angeborenen schweren Störung des Immunsystems leidet, kommt dreimal innerhalb von vier Monaten in die Klinik und klagt über Fieber und Kopfschmerzen. Die Flüssigkeitsräume des Gehirns sind krankhaft erweitert und es kommt zu einem andauernden epileptischen Anfall. Der Junge muss ins Koma versetzt werden. Alle diagnostischen Test, inklusive einer Hirnbiopsie (Gewebeentnahme aus dem Gehirn), helfen nicht weiter. Mehr als 100 verschiedene Infektionserreger können solch eine Hirnentzündung auslösen. Meist wird sie durch Vireninfektionen ausgelöst (wie zum Beispiel die von Zecken übertragene Frühsommer-Meningoenzephalitis), aber auch bakterielle Infektionen können die Ursache sein. Eine Diagnose mit den herkömmlichen Testmethoden für einzelne Erreger ist enorm aufwendig. Mehr als die Hälfte der Hirnentzündungen werden nicht diagnostiziert. Im Falle des Jungen entschließt man sich zu einem Schritt in die Moderne: die Hirnflüssigkeit wird mittels eines metagenomischen Ansatzes komplett “durchsequenziert”. Dabei entdeckt man tatsächlich die Ursache der Entzündungen: eine Infektion des Gehirns durch Bakterien der Gattung Leptospira. Die erfolgreiche Diagnose der Ursache, ermöglicht eine gezielte Behandlung der Krankheit mit Antibiotika. Bei einer viralen Infektion, wäre diese wirkungslos gewesen. Einen Monat später kann der Junge aus der Klinik entlassen werden.
Die traditionelle klinische Vorgehensweise für die Diagnose von Infektionskrankheiten bei Patienten wird seit mehr als einem Jahrhundert angewandt und läuft im Prinzip immer gleich ab: Die Ärztin/der Arzt formuliert eine Differentialdiagnose, das heißt, sie/er zählt alle möglichen Erklärungen auf, die für die Symptome des Patienten in Betracht kommen. Für viele Krankheitsbilder, zum Beispiel Hirn(haut-)entzündungen, Atemwegssyndrome oder fieberhafte Erkrankungen, ist die Differentialdiagnose sehr breit und der Arzt/die Ärztin muss eine Reihe von Tests anordnen, um den Erreger zu identifizieren. Solche Tests sind in der Regel kostengünstig und schnell (weniger als zwei Stunden). Die meisten herkömmlichen mikrobiologischen Tests sind jedoch sehr spezifisch, das heißt sie erkennen nur eine begrenzte Anzahl von Krankheitserregern (häufig genau einen Erreger). Meist wird mit dem wahrscheinlichsten Krankheitserreger begonnen und sich dann weiter vorgetestet. Dieser Ansatz ist zeitaufwändig und in Summe mit erheblichen Kosten verbunden. Im schlimmsten Fall vergehen Wochen bis ein Endergebnis erzielt wird, wenn überhaupt. Metagenomische Sequenzierung hingegen dauert länger als ein einzelner dieser mikrobiologischen Tests (etwa einen Tag) und ist teurer, aber fast alle Krankheitserreger, einschließlich Viren, Bakterien, Pilze und Parasiten, können mit einem einzigen Test identifiziert werden. Die metagenomische Sequenzierung von klinischen Proben ist damit vielleicht der vielversprechendste Ansatz für die umfassende Diagnose von Infektionen.
Metagenomik bedeutet, dass die Gesamtheit der in der Probe befindlichen DNA (Genom) und/oder RNA (Transkriptom) sequenziert wird. Jede Körperflüssigkeit und jedes Gewebe kann einer solchen metagenomischen Untersuchung unterzogen werden. Wichtig ist, dass genügend Nukleinsäure (also DNA oder RNA) in der Probe enthalten ist. Denn mehr als 99% der enthaltenen Sequenzen ist menschlich (wobei Gewebe mehr menschliche Sequenzen enthält als Körperflüssigkeiten), und von den verbleibenden Sequenzen stammt nur eine Bruchteil von potenziellen Krankheitserregern. In manchen Fällen muss die menschliche DNA vorher sogar entfernt werden, um ein ausreichend starkes Signal des Erregers zu erhalten.
Die Metagenom-Sequenzierung bietet noch weitere Vorteile: Im Falle von bakteriellen Infektionen zum Beispiel, kann nicht nur der Erreger identifiziert werden, sondern auch Antibiotikaresistenzgene im Erreger direkt nachgewiesen werden. Das verhindert den Einsatz des falschen Antibiotikums von vornherein. Überhaupt können die Sequenzdaten potenziell für zusätzliche Analysen genutzt werden. Zum Beispiel kann man anhand der menschlichen (Transkriptom-)Sequenzen auch die Reaktion des menschlichen Körpers auf den Erreger untersuchen.
Trotz des Potenzials und der jüngsten Erfolge der Metagenomik in der Forschung hinken die Anwendungen in der klinischen Diagnostik hinterher. Klar ist, dass metagenomische Untersuchungen in klinischen Labors schwieriger umzusetzen sind. Während sich in der Forschungsumgebung die Vorverarbeitung, die Sequenziermethoden, und die bioinformatische Auswertung ständig verändern, muss ein Test für die Klinik standardisiert sein. Jede Änderung, die an einem solchen Testverfahren vorgenommen wird, muss vor der Anwendung am Patienten geprüft werden. Die Komplexität der metagenomischen Untersuchung erfordert hochqualifiziertes Personal, das in molekularbiologischen Verfahren bestens ausgebildet ist, und äußerste Sorgfalt im Umgang mit den Proben, um Fehler und Kontaminationen zu vermeiden. Selbst die kleinste Menge an DNA oder RNA von außen könnte ein falsches Signal liefern.
Zudem gibt es bisher keine wirklich benutzerfreundliche Bioinformatik-Software zur Auswertung metagenomischer Sequenzdaten. Auch hier ist hochqualifiziertes Personal erforderlich, um eine entsprechende Software für den klinischen Einsatz zu entwickeln, zu validieren und zu warten. Auch die benötigte Rechenpower und der Speicherbedarf stellen ein Problem dar, insbesondere im Hinblick auf den Schutz vertraulicher Patientendaten.
Nicht zuletzt spielen natürlichen die Kosten eine entscheidende Rolle. Auch wenn die Sequenzierverfahren an sich immer kostengünstiger werden, darf man Faktoren wie Personalkosten nicht unter den Tisch fallen lassen. Die metagenomische Untersuchung einer Probe kostet mehrere hundert bis tausend Euro und ist damit wesentlich teurer als viele andere klinische Tests. Preislich lohnt sich eine solche Untersuchung also nur, wenn dadurch eine Vielzahl anderer Tests vermieden werden kann.
Sequenzierungstechnologien und ihre Anwendungen entwickeln sich ständig weiter. Next-Generation-Sequenzierung hat das Lesen von Sequenzen um ein vielfaches vereinfacht und beschleunigt (Zeit für die Sequenzierung eines Menschengenoms von 13 Jahren auf 2 Tage verringert) und das Feld der Metagenomik überhaupt erst in Gang gebracht. Mittlerweile sind wir im dritten Zeitalter der Sequenzierung angekommen. Mittels sogenannter Nanoporen (Sequenzierer im Hosentaschenformat) kann man heute in Echtzeit sequenzieren — ein enormer Vorteil bei der Behandlung von Patienten mit akuten Infektionskrankheiten. Nanoporen-Sequenzierung ermöglicht die Erkennung von Erregern in weniger als 6 Stunden. Für die Zukunft bedeutet das, dass metagenomische Untersuchungen direkt am Patientenbett oder in der Notaufnahme stattfinden könnten. Das ist auch attraktiv für die Fernüberwachung von Virenepidemien oder im Hinblick auf den Schutz der Privatsphäre der Patienten, da die menschlichen Sequenzdaten nicht gespeichert werden.
Auf jeden Fall werden metagenomische Untersuchungen in den kommenden Jahren auch im Krankenhaus immer attraktiver werden. Die Gesamtkosten und die Durchlaufzeiten werden weiter sinken, und die gewonnen Zusatzinformationen (zum Beispiel in Bezug auf die Immunantwort des Patienten) werden sich als nützlich erweisen. Auch die Software für die bioinformatische Auswertung wird sich weiterentwickeln, und viele der Abläufe im Labor werden automatisiert stattfinden. Und in einer Welt mit ständig neuen Krankheitserregern werden solche unvoreingenommenen Tests eine zentrale Rolle für die Erkennung und auch für die Überwachung von Infektionsausbrüchen spielen. Dank Nanoporen-Sequenzierung wird es möglich sein, Infektionsausbrüche viel früher zu erkennen und einzudämmen, und damit Leben zu retten und Kosten zu senken.
]]>Alan Turing gehört zweifelsohne zu den interessantesten Persönlichkeiten der Geschichte der Informatik. Er entwickelte das Konzept der Turing-Maschine, ein abstraktes Modell eines Computers, mit dem man testen kann, ob ein Problem überhaupt berechenbar (also von einem Computer lösbar) ist. Turing-Maschinen sind bis heute einer der Schwerpunkte der Theoretischen Informatik. Während des Zweiten Weltkriegs war Turing einer der herausragendsten Wissenschaftler im Bereich der Kryptoanalyse. Er half dabei, sowohl die Codes der Enigma als auch der Lorenz-Schlüsselmaschine zu brechen und damit die verschlüsselten deutschen Funksprüche zu entziffern. Zudem beschäftigte er sich schon früh mit der Problematik der künstlichen Intelligenz und formulierte den Turing-Test, um festzustellen, ob ein Computer ein dem Menschen gleichwertiges Denkvermögen hätte. Und als wäre das alles nicht schon cool genug, beschäftigte sich dieser Pionier der Informatik in seinen letzten beiden Lebensjahren doch tatsächlich auch noch mit mathematischer Biologie. Alan Turing — einer der ersten Bioinformatiker!
Habt ihr euch auch schon einmal gefragt, wie diese tolle Fellmusterung bei Zebra, Tiger, Giraffe, Dalmatiner und Co eigentlich zustande kommt? Um das zu verstehen, müssen wir an den Anfang zurückspulen, bis zur Morphogenese der kleinen Tierbabies. Der Begriff Morphogenese kommt aus dem Griechischen, bedeutet „Entstehung der Form“ und beinhaltet alle Entwicklungsprozesse, die irgendwie an der Ausbildung der charakteristischen Form beziehungsweise Gestalt eines Organismus beteiligt sind, von der Organentwicklung bis hin zur Herausbildung bestimmter Strukturen oder Muster. Wie das Fell des Zebras später einmal aussehen wird, wird bereits im Zebraembryo festgelegt. Dabei stellt sich die Frage, ob die Streifen eines Zebras genetisch vorbestimmt sind? Haben Zebrazwillinge das gleiche Muster? Nein. Die Fellmuster sind von Zebra zu Zebra unterschiedlich, ähnlich zu den Fingerabdrücken beim Menschen. Die Morphogenese wird nicht nur durch das Erbgut bestimmt, sondern auch in unterschiedlichem Maße von Umweltfaktoren beeinflusst.
Wie wird ein Haar denn überhaupt schwarz, weiß, oder auch blond oder braun? Ein Haar entsteht im Haarfollikel, gewissermaßen die Produktionsstätte und gleichzeitig der Anker eine Haares. Am unteren Ende des Follikels wird das Haar in der Haarwurzel gebildet. Rund um diesen Bildungsbereich lagern im Follikel zahlreiche Melanozyten. Melanozyten sind Zellen, die Melanine enthalten, die die Färbung der Haut, Haare, Federn und Augen bewirken. Diese Farbpigmente können dunkelbraun bis schwarz oder gelblich bis rötlich sein. Die Melanozyten geben die Melanine an das entstehende Haar ab und sorgen damit für dessen Färbung. Werden keine Farbpigmente an das Haar abgegeben, bleibt es weiß.
Melanozyten bestimmen auch die Farbe der Haut, wobei unterschiedliche Melanozyten für Haut- und Haarfarbe verantwortlich sind. Soll heißen: Die Haut des Zebras ist nicht gestreift, sondern schwarz. Bei manchen Großkatzen spiegelt die Haut das Muster des Fells wieder. Das liegt vermutlich jedoch daran, dass die farbigen Haarfollikel in der Haut sichtbar sind, ähnlich wie ein Bartschatten beim Mann.
Oder anders gesagt, wie kommt es zur unterschiedlichen Verteilung des Melanins? Mit dieser Frage beschäftigte sich Alan Turing Anfang der 1950er Jahre. Selbst kein Biologe, betrachtet er die Frage aus mathematischer Sicht und versucht nachzuvollziehen, wie sich ein Embryo Schritt für Schritt entwickelt. Er schlug einen Reaktions-Diffusions-Mechanismus vor, in dem zwei chemische Substanzen miteinander reagieren und diffundieren. Diffusion, das kennt ihr vielleicht noch aus der Schule, ist der ohne äußere Einwirkung eintretende Ausgleich von Konzentrationsunterschieden. Turing vereint mit seiner Theorie also nicht nur Biologie und Mathematik, sondern auch noch Chemie und Physik. Multidisziplinär sozusagen: eine biologische Fragestellung mit chemischen und physikalischen Konzepten erklärt und mathematisch bewiesen.
Für ein solches Reaktions-Diffusions Modell brauch wir zwei chemische Substanzen, die Turing als Morphogene bezeichnet: Die eine Substanz ist ein Aktivator, der ab einer bestimmten Konzentration die Produktion von Melanin anregt. Der Aktivator ist außerdem autokatalytisch, das heißt, er regt auch die eigene Produktion an. Und der Aktivator breitet sich nur langsam aus. Die andere Substanz ist ein Inhibitor, der die Produktion des Aktivators unterdrückt. Der Inhibitor breitet sich schnell und langreichweitig aus. Der Aktivator ist stärker fördernd, als der Inhibitor hemmend ist. Wie sich diese beiden Substanzen nun im Körper ausbreiten und miteinander interagieren, lässt sich mathematisch durch eine partielle Differentialgleichung darstellen (bestehend aus zwei Gleichungen: eine für den Aktivator und eine für den Inhibitor). Ein ganz wichtiger Bestandteil dieser Gleichung ist der Parameter für die Diffusion. Ohne Diffusion ist das System homogen, mit Diffusion formt es räumliche Muster, wie zum Beispiel Streifen: an den Stellen mit einer hoher Konzentration an Aktivatorsubstanz wird Melanin gebildet, das Fell wird schwarz.
Turing bewies, dass dieses einfache System eine Vielzahl von Mustern hervorbringen kann. Also nicht nur die Streifen des Zebras, sondern zum Beispiel auch die Flecken der Giraffe. Welches Muster konkret entsteht, hängt von vielen unterschiedlichen Faktoren ab. Zum Beispiel von der Größe und Geometrie des Fells, aber auch von der Dauer der Embryonalentwicklung und dem Zeitpunkt der Musterbildung. Bei der Giraffe zum Beispiel findet die Musterbildung recht früh statt; die Flecken wachsen entsprechend mit. Dalmatinerflecken hingegen sind eher klein, weil die Musterbildung eher später stattfindet. Das Modell erklärt sogar, wieso der Körper des Geparden fleckig, der Schwanz jedoch gestreift ist. Mehr noch, das Prinzip von Konzentrationsgradienten erklärt noch viele weitere natürliche Muster über die Fellfärbung hinaus: Von der Anordnung der Sonnenblumenkerne bishin zur links-rechts Symmetrie unseres Körpers. Turings Arbeit war damit ein Meilenstein der Entwicklungsbiologie
Bleibt noch die Frage, wozu Zebrastreifen eigentlich gut sind (außer um die Straße zu überqueren ;)). Dazu gab es über die Jahre die verschiedensten Theorien, von Tarnung über Kühlung bis zur Insektenabwehr. Die Theorie vom kühlenden Effekt der Zebrastreifen ist bereits widerlegt. Sehr wahrscheinlich ist hingegen die Funktion bei der Insektenabwehr. Die Streifen der Zebras reflektieren das Licht so, dass die Insekten ihre Flugbahn nicht kontrolliert abbremsen können, gegen den Zebrakörper prallen und wieder weg fliegen.
]]>Aber was ist Epigenetik überhaupt? Die griechische Vorsilbe “epi-” in diesem Zusammenhang richtig zu übersetzen, finde ich schwierig. Man könnte wohl so etwas wie “zusätzlich” oder “oberhalb” sagen. Unter Epigenetik fasst man all die genetischen Prozesse zusammen, die über die “klassische” Genetik hinaus gehen, das heißt, die nichtauf Nukleotidebene in der DNA-Sequenz kodiert sind. Stattdessen finden epigenetische Veränderungen auf Chromatinebene statt. Chromatin ist ein Komplex aus DNA und speziellen Proteinen (hauptsächlich Histonen), aus dem die Chromosome im Zellkern gebildet werden. Verändert werden sowohl die Histone als auch die Nukleotide, wobei die Veränderungen umkehrbar und eher mit einer Art chemischen Markierung gleichzusetzen sind. Man könnte epigenetische Veränderungen auch als “weiche Veränderungen” bezeichnen, die mehr Anpassungsfähigkeit ermöglichen, aber auch rückgängig gemacht werden können. Die klassische Genetik sorgt hingegen für “harte Veränderungen”, die nicht umkehrbar sind.
Die komplexen epigenetische Prozesse steuern die Funktion bestimmter Gene und erhöhen damit die Flexibilität des immer gleichen Erbguts. Epigenetik beeinflusst unter anderem, dass aus totipotenten Stammzellen, aus denen wir anfangs bestehen, durch Zelldifferenzierung bestimmte Körperzellen mit festgelegten Funktionen werden, obwohl das Erbgut in allen Zellen gleich ist. So braucht zum Beispiel eine Muskelzelle andere Gene als eine Nervenzelle. Dabei werden auf unserem DNA-Strang bestimmte Gene abgeschaltet, indem sie epigenetisch markiert werden. Es bleiben nur die Gene benutzbar, die für die Aktivität der jeweiligen Körperzelle wichtig sind.
Mit der Epigenetik kam auch die Einsicht, dass die Eigenschaften eines Lebewesens nicht rein durch das vererbte Genmaterial unveränderbar bestimmt sind. Im Gegenteil: epigenetische Prozesse können sogar durch Umweltfaktoren beeinflusst werden. Ein sehr eindrucksvolles Beispiel dafür sind Bienen. Ob sich eine Biene zur Königin oder Arbeiterin entwickelt, wird epigenetisch über die Nahrung bestimmt. Die Larven zukünftiger Königinnen erhalten Gelée royale. Die Larven, die mit Pollen gefüttert werden, entwickeln sich zu Arbeiterinnen. Die unterschiedliche Nahrung sorgt für unterschiedliche Markierungen auf der DNA und entscheidet somit über das Schicksal der Larven.
Aber auch das menschliche Genom verändert sich im Laufe unseres Lebens auf epigenetischer Ebene. Das kann man vor allem an genetisch eineiigen Zwillingen nachweisen. Dabei hat man unter anderem festgestellt, dass Zwillinge im Alter epigenetisch umso verschiedener sind, je unterschiedlicher ihre Leben verlaufen sind.
Zurück zu den Pflanzen. Auch für Pflanzen spielen Umweltfaktoren eine große Rolle. In verschiedenen Umgebungen und unter verschiedenen klimatischen Bedingungen flexibel zu sein, ist (nicht nur für Pflanzen) von großem Vorteil. Um die Anpassungsfähigkeit von Pflanzen zu verstehen, müssen wir auch die epigenetischen Markierung auf der DNA untersuchen. Eine Form dieser DNA-Markierungen sind Methylierungen. Dabei werden kleine Methylgruppen an einen bestimmten DNA-Abschnitt gehängt und das Gen damit stillgelegt. Wird die Methylgruppe wieder abgelöst, kann wieder auf die Erbinformation zugegriffen werden. Auf diese Art könnten Pflanzen zum Beispiel auf extreme Trocken- oder Hitzeperioden reagieren.
Ein Großteil unseres derzeitigen Wissens über DNA-Methylierung bei Pflanzen bezieht sich auf die Acker-Schmalwand. In der Landwirtschaft gilt sie als Unkraut, in der Genetik hat sie sich aber als Modellorganismus etabliert — “die Fruchtfliege der Botanik”. Modellorganismen sind nützlich, aber so wie sich nicht alles Wissen von Fruchtfliege auf Mensch übertragen lässt, sind eben auch nicht alle Pflanzen gleich. Bisher ist unklar, wie wichtig epigenetische Unterschiede für die Anpassungsfähigkeit natürlicher Pflanzenpopulationen unter verschiedenen Umweltbedingungen sind.
EpiDiverse ist ein großer europäischer Forschungsverbund, in dem sich Bioinformatiker_innen, Molekularbiolog_innen und Ökolog_innen aus sieben Ländern zusammengeschlossen haben, um epigenetische Veränderungen an drei Wildpflanzenarten zu untersuchen: Schwarz-Pappel, Wald-Erdbeere und Acker-Hellerkraut. Im Mittelpunkt steht dabei die Frage, wie epigenetische Mechanismen zur Reaktion auf Stress durch veränderte Klimabedingungen und zur langfristigen Anpassung an solche beitragen. Dabei schauen sich die Forscher_innen unter anderem die epigenetischen Unterschiede der Pflanzen entlang des Klimagradienten an, aber auch, wie die Pflanzen epigenetisch auf Klima-Stress reagieren. Untersucht werden die genomischen Grundlagen (Bioinformatik), die molekularen Mechanismen (Molekularbiologie) und die ökologische Bedeutung der Veränderungen (Ökologie).
Dabei werden natürlich in großen Mengen DNA-Daten ausgewertet. Diesmal aber eben nicht die reinen Sequenzen, sondern die epigenetischen Informationen. Wie aber gewinnt man diese Daten? DNA-Sequenzierung liefert die Abfolge der Nukleotide, nicht aber die epigenetische Information darüber hinaus. Eine mögliche Methode, um DNA-Methylierungen zu entdecken, ist die Bisulfit-Sequenzierung. DNA-Methylierungen finden hauptsächlichen an Cytosinen statt. Behandelt man DNA mit Bisulfit, werden alle Cytosine in Uracil umgewandelt — außer diejenigen, die methyliert sind. Somit lassen sich methylierte Cytosine durch normale DNA-Sequenzierung erkennen. In einem der Projekte des EpiDiverse Netzwerks geht es speziell darum, solche Bisulfit-Sequenzierungsdaten zu untersuchen und neue Algorithmen für deren Analyse zu entwickeln.
Ziel des Forschungsverbundes ist natürlich nicht nur die Entwicklung von Methoden zur Auswertung von Daten, sondern in erster Linie, die Beantwortung biologischer Fragestellungen. Interessant wäre es zum Beispiel, natürliche Muster der epigenetischen Unterschiede in Bezug auf die lokale Umgebung, das Klima und den geografischen Standort aufzudecken. Und natürlich, die zu Grunde liegenden molekularen Mechanismen der epigenetischen Reaktionen auf Klimastress zu verstehen. Letztlich hilft uns dieses Wissen hoffentlich auch auf dem Weg zu einer nachhaltigeren Landwirtschaft.
]]>Wenn ich von Fledermäusen rede, dann meine ich eigentlich Fledertiere, im englischen als “bats” bekannt oder wissenschaftlich “Chiroptera”. Der wissenschaftliche Name setzt sich aus den griechischen Wörtern für Hand (cheir) und Flügel (pteron) zusammen; “Handflügel” also. Fledertiere sind die zweitgrößte Säugetiergruppe und machen mit über 1200 Arten weltweit etwa zwanzig Prozent aller klassifizierten Säugetierarten aus. Schon aus phylogenetischer Sicht sind Fledertiere hochinteressant. Zum einen ist es schwierig, die Fledertiere im Stammbaum der Säugetiere einzuordnen; zum anderen ist auch die Ordnung der Fledertierarten untereinander noch immer umstritten. Traditionell unterteilte man Fledertiere in Flughunde (Megachiroptera) und Fledermäuse (Microchiroptera). Diese Systematik ist nach neueren phylogenetischen Erkenntnissen nicht ganz richtig. Man hat entdeckt, dass eine Gruppe der Fledermäuse (die Hufeisennasenartigen), näher mit den Flughunden verwandt sind als mit den übrigen Fledermäusen.
Dass Fledermäuse immer irgendwie mit Vampiren in Verbindung gebracht werden, hat vermutlich mehrere Gründe. Sie lieben die Dunkelheit, hausen in düsteren Höhlen, bewegen sich fast unsichtbar durch die Nacht, haben spitze Zähne und Krallen und sehen ungewöhnlich aus — alles irgendwie furchteinflößend. Spätestens seit “Dracula” trägt der Vampir einen Umhang, der Fledermausflügeln ähnelt. Bleibt die Frage nach der offensichtlichsten Gemeinsamkeit mit einem Vampir: Saugen Fledermäuse wirklich Blut? Es gibt tatsächlich genau drei Arten von Vampirfledermäusen, die sich ausschließlich von Blut ernähren: der Gemeine Vampir (Desmodus rotundus), der Kammzahnvampir (Diphylla ecaudata) und der Weißflügelvampir (Diaemus youngi) — wobei die Tiere nach den Sagengestalten benannt wurden und nicht umgekehrt. Von diesen dreien ernährt sich nur eine (der Gemeine Vampir) überhaupt gelegentlich von Menschen (eigentlich bevorzugt von Kühen). Anders als Graf Dracula leben Vampirfledermäuse nicht in Rumänien oder überhaupt in Europa, sondern im südlichen Nordamerika und in Mittel- und Südamerika. Und entgegen der landläufigen Meinung saugen sie das Blut auch nicht aus ihrer Nahrungsquelle. Stattdessen beißen sie ihr Opfer und schlürfen das Blut mit der Zunge. Sie haben messerscharfe Zähne, sodass ihr Biss fast schmerzlos ist und schlafende Tiere oder Menschen selten davon wach werden. Das Blutplasma scheiden sie bereits zwei Minuten später als Urin wieder aus. Fledermäuse sind Schnellverdauer. Die meisten Fledermausarten ernähren sich allerdings nicht von Blut, sondern von Insekten, andere auch von Fröschen, Fischen, Eidechsen und Vögeln. Einige Fledermausarten und alle Flughundarten sind sogar Vegetarier. Sie ernähren sich von Nektar, Pollen, Früchten und Blüten. Über 300 Pflanzenarten sind zur Bestäubung auf Fledertiere angewiesen, darunter Feigen, Bananen, Avocados, Mangos, Datteln, Kakao, Agave, Vanille, und viele mehr.
Fledertiere sind die einzigen Säugetiere, die fliegen können. Also so richtig mit Flügelschlag aus eigener Kraft. Sind wir doch mal ehrlich: schon allein deshalb sind sie unglaublich cool und beflügel(te)n die Phantasie vieler Geschichtenschreiber. Der Flügel eines Fledertiers ähnelt einer modifizierten Hand, mit langen Fingerknochen, vielen beweglichen Gelenken und einer flexiblen Hautmembran. Der Name Handflügel ist also durchaus treffend. Was das betrifft, sollten die gängigen Vampirstories die Anatomie ihrer Protagonisten noch einmal überarbeiten. Obwohl ich mir einen mit den Händen flatternden Vampir wenig bedrohlich vorstelle. In der Realität sind Fledertiere besonders flexible und wendige Flieger. Die Flügelmembranen helfen außerdem, Körpertemperatur, Blutdruck, Wasserhaushalt und Gasaustausch zu regulieren.
Ein wahrhaft schlechter Vergleich. Fledermäuse sind entgegen der landläufigen Meinung nicht blind. Sie können schwarz-weiß sehen und dank Echoortung können sie sich auch im Dunkeln problemlos orientieren. Sie senden Geräusche aus und achten auf Veränderungen in den Echos, die auf sie zurückprallen. Damit können sie Objekte und auch deren Entfernung sicher erkennen. Zum Auffangen des Echos besitzen Fledermäuse ein hoch entwickeltes Ohr und große Ohrmuscheln. Die zurückkommenden Echos werden vom Fledermausgehirn in ein dreidimensionales Bild der Umgebung umgesetzt. Fledermäuse sehen quasi mit ihren Ohren. Mit der Zeit entwickeln sie sogar ein räumliches Gedächtnis und können sich auch ohne Ortungslaute orientieren. Unter den Flughunden besitzen nur Rosettenflughunde die Fähigkeit zur Echoortung und zwar durch Klickgeräusche mit der Zunge.
Außerdem können einige Fledermausarten sogar ultraviolettes Licht sehen. Für Entfernungen über zehn Meter wird die Echoortung ungenau. Das UV-Sehen erleichtert die frühzeitige Erkennung von Raubvögeln vor allem während der Dämmerung und hilft den vegetarischen Fledermäusen auf der Suche nach Blüten, die zum Teil ultraviolettes Licht verstärkt reflektieren.
Und das tut es auch. Und auch damit sticht es unter der Säugetieren deutlich hervor. Es gibt eine Art Daumenregel: je größer das Säugetier, desto länger die Lebenserwartung. Elefanten werden so um die siebzig Jahre alt; Mäuse so zwei bis drei Jahre. Große Arten wiederum bekommen relativ selten Nachwuchs; kleinere Arten produzieren in der Regel weit mehr Nachkommen. Und Fledermäuse? Die sind mal wieder die Ausnahme von der Regel. Sie bekommen meist nur ein Baby pro Jahr und sind damit im Größenverhältnis die Säugetiere mit der langsamsten Fortpflanzung der Welt. Die durchschnittliche Lebensdauer von Fledermäusen variiert, aber einige Arten können dreißig Jahre alt werden. 2006 stellte eine winzige Fledermaus aus Sibirien mit 41 Jahren den Weltrekord auf. Die Gründe dafür sind noch nicht ganz verstanden. Bei den meisten Tierarten ist das Sterberisiko kurz nach der Geburt hoch, danach längere Zeit eher niedrig und im Alter steigt es wieder deutlich an. Bei Fledermäusen konnte man bei älteren Tieren jedoch keine erhöhte Sterblichkeit oder Krebsanfälligkeit messen. Sie werden alt und bleiben dabei kerngesund. Verschiedene Gründe könnten die Ursache sein, zum Beispiel der Winterschlaf und/oder die im Flug erhöhte Körpertemperatur.
Falls ihr Fledermäuse nicht so cool findet wie ich und euch eher von ihnen fernhalten wollt, dann kann ich euch die Antarktis als einzigen fledertierfreien Kontinent empfehlen. Fledertiere sind auf fast allen Teilen der Erde anzutreffen (außer in extremen Wüstengebieten und Polarregionen), vom nördlichen Polarkreis bis nach Argentinien und an die südlichste Spitze Südafrikas. Auf Neuseeland waren zwei Fledermausarten sogar die ersten Säugetiere vor der Ankunft des Menschen. Besonders weit verbreitet sind die Mausohrfledermäuse (Myotis), die Bulldoggfledermäuse (Molossidae) und die Sackflügelfledermäuse (Emballonuridae).
So weit verbreitet die Fledertiere sind, so vielfältig sind sie auch. Besonders ihre Größe variiert stark; von der Schweinsnasenfledermaus (mit etwa dreißig Millimetern und zwei Gramm auch das kleinste Säugetier überhaupt) bis zu den größten Flughunden (mit etwa dreißig Zentimetern, Flügelspannweite über 1,5 Meter und etwa einem Kilo Körpergewicht).
In China gelten Fledermäuse als Glücksbringer. Das chinesische Zeichen für Fledermaus (蝠, fú) klingt genauso wie das für Glück (福, fú) und Reichtum (富, fù); und die vollständige Bezeichnung 蝙蝠 (biānfú) klingt wie 变福 (biàn fú), was so viel heißt wie “glücklich/wohlhabend werden” beziehungsweise “gesegnet sein”. Mehr noch: Ornamente aus fünf Fledermäusen symbolisieren die fünf Glückseligkeiten (Gesundheit, langes Leben, Reichtum, Tugendhaftigkeit und ein schneller natürlicher Tod).
Die einzigartigen Fähigkeiten der Fledertiere inspirieren auch die Forschung. Nicht nur, weil man die Tiere besser verstehen möchte, sondern natürlich auch, weil man sich ihre Fähigkeiten zu Nutze machen möchte. So hat zum Beispiel die Untersuchung der Echoortung geholfen, um Navigationshilfen für Blinde zu entwickeln und aus der Spucke von Vampirfledermäusen gewinnt man Medikamente zur Hemmung der Blutgerinnung zur Behandlung von Schlaganfallopfern und Herzpatienten.
Gleichgeschlechtliche Liebe ist keine Seltenheit im Tierreich. Affen, Libellen, Fische, Elefanten, Giraffen — nachweislich gibt es über 1500 Tierarten, bei denen Homosexualität ausgelebt wird. Auch bei mehr als zwanzig Fledertierarten wurde bereits dokumentiert, dass sie sich in unterschiedlicher Form homosexuell verhalten.
Nachdem ich euch nun so viel darüber erzählt habe, warum ihr Fledertiere unbedingt cool finden solltet und sie ihr negatives Image als heimtückische, hässliche und schädliche Kreaturen gar nicht verdient haben, erzähle ich euch jetzt, warum von ihnen trotzdem eine große Gefahr ausgeht. Und dabei geht es — wie sollte es auch anders sein — natürlich mal wieder um Viren.
In einem meiner letzten Beiträge habe ich euch bereits erzählt, dass vor allem durch den Klimawandel und unsere Vorliebe für Reisen in ferne Länder, der Kontakt zwischen Mensch und sogenannten Reservoirwirten, die Infektionskrankheiten auf den Menschen übertragen, wesentlich erhöht wurde. Etwa 75% aller “Emerging Infectious Diseases” (neue, sich ausbreitende Infektionskrankheiten) des Menschen sind Zoonosen, werden also von Tieren auf den Menschen übertragen. Fledertiere nehmen dabei einen größeren Anteil ein als jede andere Säugetierordnung. In den letzten zwei Jahrzehnten wurden einige virale Ausbrüche mit Fledertieren in Verbindung gebracht, vor allem durch Coronaviren (SARS, MERS) und Filoviren (Ebola, Marburg). Auch Tollwut kann durch Fledermäuse übertragen werden.
Stellt sich die Frage, warum ausgerechnet Fledertiere so gute “Übertragungsvektoren” für alle Arten von Viren sind? Mit Vampirismus hat das, wie oben schon erwähnt, wenig zu tun. Unser Wissen über die Grundlagen der Fledertierbiologie und -immunologie ist jedoch noch sehr begrenzt, weswegen ich euch die Frage nicht beantworten kann. Eine große Rolle spielt dabei sicherlich die große Artenvielfalt der Fledertiere, und damit einhergehend die großen Unterschiede hinsichtlich ihrer geografischen Lage, ihrer Ernährungsgewohnheiten, und ihrer Physiologie. Dieses Unwissen macht es uns auch schwer, das Risiko eines viralen Übersprungs von Fledertier auf Mensch vorherzusagen. Aber aufgrund der großen genetischen Vielfalt und der großen geografischen Verbreitung der verschiedenen bisher entdeckten Fledertierviren ist es fast sicher, dass immer mehr Krankheitsausbrüche durch Fledertierviren auftreten werden.
Die zweite Frage, die sich stellt, ist, warum viele der von Fledertieren übertragenen zoonotischen Viren für den Menschen (sowie für andere Säugetiere) so tödlich sind, während sie bei den Fledertieren keine Krankheiten auslösen. Auch hier ist unser Wissen noch sehr begrenzt. Durch bioinformatische Genomuntersuchungen hat man zumindest schon Anhaltspunkte gefunden, dass Fledertiere ein erhöhtes Maß an bestimmten Abwehrgenen und Abwehrwegen besitzen. Die Erforschung des Immunsystems der Fledertiere ist vor allem deshalb so interessant, weil dort auch der Schlüssel zu einem Medikament oder Impfstoff gegen die Viren liegen könnte.
Und was sagt ihr? Konnte ich euch mit meiner Fledertierliebe mitreißen? Oder habe ich euch eher Angst gemacht? Kennt ihr vielleicht auch noch ein paar außergewöhnliche Fakten über Fledermäuse?
]]>Wird über das Darmmikrobiom berichtet, meint man in erster Linie die Bakterien im Darm. Der bakteriellen Komponente des Darms hat man bereits viel Aufmerksamkeit geschenkt. Erst gestern habe ich den aktuellen “Spiegel” in der Hand gehalten, mit einer Titelstory über das Superorgan Darm: “Die Bakterien in unserem Darm entgiften, trainieren die Immunabwehr, regeln die Verdauung.” Ihre nützliche Funktion bei gesunden Personen ist bekannt und viele Faktoren, die die Zusammensetzung beeinflussen — Ernährung, Alter, Krankheiten, Medikamente — sind bereits gut verstanden. Auch wurde in den letzten Jahren intensive Forschungen betrieben, um dessen Rolle bei Krankheiten zu entschlüsseln. Die bakterielle Komponente des Darms wird mit einer Vielzahl von Krankheiten in Verbindung gebracht, von Magen-Darm- und Autoimmunerkrankungen über Lebererkrankungen bis hin zu Erkrankungen des Zentralnervensystems.
Als Darmmikrobiom bezeichnet man aber eigentlich nicht nur Bakterien, sondern die Gesamtheit der Mikroorganismen, die den Darm von Menschen und Tieren besiedeln. Dazu zählen auch sogenannte Archaeen (ebenfalls einzellige Lebewesen ohne Zellkern) aber auch Eukaryoten (Lebewesen mit Zellkern; hier vor allem Pilze). Die virale Komponente des Mikrobioms (kurz “Darmvirom”) hat bisher fast gar keine Beachtung erhalten. Über die Viren im Darm weiß man kaum etwas und ihre Relevanz für Gesundheit und Krankheit muss erst noch untersucht werden. Im deutschsprachigen Wikipedia-Artikel über die Darmflora werden Viren nicht einmal erwähnt. Googelt man nach Darmviren, so stößt man auf die gängigen bekannten Krankheitserreger, die uns mit Durchfall und Erbrechen plagen. Dabei wissen wir eigentlich, dass die meisten Viren (und Mikroorganismen im Allgemeinen) weder für Menschen noch für Pflanzen oder Tiere krankheitserregend sind. Es wird also Zeit, das Image der Darmviren zu retten.
Dass man den Viren (im Darm) bisher nicht so viel Aufmerksamkeit geschenkt hat, hatte vor allem technische Gründe. Für die klassische mikrobiologische Forschung mussten die Mikroorganismen zuerst kultiviert werden, um sie danach mittels Sequenzierung identifizieren zu können. Blöderweise lassen sich die meisten Mikroorganismen (Schätzungen liegen bei über 99%) aber gar nicht kultivieren (oder sagen wir besser, es hat noch niemand einen Weg gefunden, wie sie sich kultivieren lassen). Abhilfe schafft die Metagenomik, die erst dank technologischer Fortschritte in der Molekulargenetik möglich ist. Die Idee dahinter: man nehme eine Umweltprobe (Boden, Meerwasser, Windschutzscheibe oder eben Kot) und extrahiere daraus direkt das gesamte genetische Material.
Die Metagenomik brachte auch einen Umschwung in der Virologie mit sich. Interessierte man sich vorher eher sehr spezifisch für die Viren, die einen Krankheitszustand innerhalb eines Organismus auslösten, begibt man sich dank der Metagenomik mit Hochdurchsatzsequenzierung auf Expeditionen in die Virusökologie. Das erste Virusmetagenom wurde 2002 aus einer Ozeanprobe sequenziert. Seitdem hat die Metagenomik eine enorme mikrobielle Artenvielfalt in vielen unterschiedlichen Umgebungen ans Licht gebracht. In Kliniken setzt man Metagenomik zunehmend für schwer diagnostizierbare Fälle ein. Man muss aber auch sagen, dass die experimentellen und bioinformatischen Methoden für die Virusmetagenomik noch keinen Konsens erreicht haben. Selbst Metagenomik-Experten sprechen von „Dunkler Materie“, wenn sie die viralen Sequenzen beschreiben, die sie in Metagenomen finden.
Die erste Veröffentlichung überhaupt, in der das Darmvirom erwähnt wurde, erschien 2003. Im selben Jahr noch wurden die ersten Bakteriophagen aus menschlichem Kot sequenziert (übrigens von der gleichen Arbeitsgruppe, die auch das erste Virusmetagenom aus der Ozeanprobe sequenziert hat). Bakteriophagen sind Viren, die Bakterien und Archaeen befallen. Sie sind die am häufigsten vorkommenden Bewohner des Darms. Das Darmvirom enthält aber auch eukaryotische Viren, deren Wirte zum Beispiel die Pilze im Darm sind, oder der Mensch selbst. Selbst Viren, die im Rahmen unserer Ernährung den Magen-Darm-Trakt passieren (z.B. Pflanzenviren) zählen zum Darmvirom. Die krankheitserregende Wirkung von eukaryotischen Darmviren ist gut bekannt (Magen-Darm-Grippe durch Noroviren oder Rotaviren). Da Darmviren bei allen (acuh gesunden) Menschen vorhanden sind, wird vermutet, dass auch sie eine wichtige Rolle für das Gleichgewicht des Körpers spielen; nur gibt es bisher dafür kaum Belege.
Das erste Darmvirus, das 2014 neuentdeckt wurde und vorher völlig unbekannt war, schlug hohe Wellen. Der so getaufte CrAssphage ist ein Bakteriophage, der Bakterien des Stammes Bacteroidetes befällt, die wiederum im Darm vieler Tiere, einschließlich des Menschen, häufig vorkommen. Bacteriodetes leben im Endbereich des Verdauungstraktes und stehen im Verdacht, eine Rolle bei krankhaftem Übergewicht und anderen Darmkrankheiten zu spielen. Das Virus wurde cooler Weise nach der Bioinformatik Software crAss (Cross-Assembly of Metagenomes) benannt, mittels derer es entdeckt wurde und ist damit möglicherweise der erste Organismus, der nach einem Computerprogramm benannt wurde. Bei der bioinformatischen Untersuchung von Metagenom-Datensätzen aus Stuhlproben, die öffentlich in Datenbanken zugänglich sind (die Datensätze, nicht die Stuhlproben), wurde dieses neue Virus entdeckt und in mehr als der Hälfte der verfügbaren menschlichen fäkalen Virome nachgewiesen. Da das Virus so weit verbreitet ist, ist es höchstwahrscheinlich bereits sehr alt. In den frühen Entwicklungsstufen des Fötus im Mutterleib und bei Säuglingen ist der CrAssphage noch nicht vorhanden. Sehr wahrscheinlich wird das Virus also in der frühen Kindheit aufgenommen. Bisher gibt es noch keine Hinweise darauf, inwiefern der CrAssphage Einfluss auf die menschliche Gesundheit hat.
Während der CrAssphage zum Zeitpunkt seiner Entdeckung im Jahr 2014 keine bekannten Verwandten hatte, wurden im Jahr 2017 eine ganze Reihe verwandter Viren entdeckt und eine neue Familie von CrAss-ähnlichen Phagen beschrieben.
Wenn der CrAssphage in einem so großen Teil der Bevölkerung vorkommt, stellt sich natürlich die Frage, ob es eine Art Kernvirom im Darm gibt, das allen Menschen gemein ist. Die Frage ist bisher ungeklärt, aber Fakt ist, dass noch weitere Viren im Darm vieler Menschen zu finden sind, darunter weitere Vertreter der CrAss-ähnlichen Phagen. Bei der vergleichenden Untersuchung des Darmviroms von Erwachsenen hat man jedoch auch entdeckt, dass dessen Zusammensetzung bei jedem Individuum einzigartig ist. Man kennt bereits mehrere Faktoren, die unsere Viromzusammentzung im Darm beeinflussen: Verwandtschaft, Ernährung, Geburtsmodus und natürlich auch Krankheiten. Der Geburtsmodus (das heißt natürlich versus Kaiserschnitt) scheint die Virenzusammensetzung im Darm sogar stärker zu beeinflussen als die Bakterienzusammensetzung.
An die Frage, wie sich das Darmvirom zusammensetzt, schließt sich direkt die Frage über dessen Einfluss auf die Gesundheit eines Menschen an. Die Rolle des Darmviroms bei Krankheiten ist bei weitem noch nicht hinreichend untersucht. Man kennt jedoch schon Zusammenhänge mit einigen Krankheiten, unter anderem chronisch entzündliche Darmerkrankungen, Typ-I-Diabetes und Darmkrebs. Auch Mangelernährung lässt sich am Darmvirom erkennen, es bleibt jedoch noch unklar, ob die veränderte Zusammensetzung Ursache oder Folge der Krankheit ist.
Ob der Darm von Neugeborenen völlig steril ist oder nicht, ist immer noch umstritten. Unmittelbar nach der Geburt ist er einer enormen Anzahl von Mikroorganismus ausgesetzt und wird von diesen besiedelt. In den folgenden Wochen und Monaten bildet sich eine stabile Gemeinschaft dieser Organismen. Das Virom verändert sich in den ersten Lebenswochen drastisch: mehr als die Hälfte der Viren aus Stuhlproben in der ersten Lebenswoche, sind in der zweiten schon nicht mehr nachweisbar. Bakteriophagen dominieren die frühe Besiedlung des Darms nach der Geburt und stammen eher aus der Umwelt als von der Mutter oder der Nahrung. Interessanterweise wird die größte Menge und Vielfalt an Phagen in den ersten Lebensmonaten beobachtet und nimmt im Laufe der Zeit signifikant ab. Die bakterielle Komponente des Darmmikrobioms entwickelt sich genau anders herum.
Auch eukaryotische Viren wurden in Stuhlproben von Säuglingen nachgewiesen, auch ohne, dass diese Säuglinge ein Krankheitsbild zeigten. Ihr Reichtum nimmt wiederum mit zunehmendem Alter zu, vermutlich, weil wir diese Viren aus der Umwelt aufnehmen.
Im Gegensatz zu den drastischen Veränderungen im Virom des Säuglingsdarms scheint das gesunde Darmvirom eines Erwachsenen über die Zeit ziemlich stabil zu sein. Trotzdem mutieren die Viren natürlich auch in unserem Darm. So kann es schon vorkommen, dass sie sich innerhalb von zwei Jahren so sehr verändern, dass sie sich zu einer neuen Art entwickeln. Das könnt auch ein Grund für die zwischenmenschlichen Unterschiede im Darmvirom sein.
Wie kommen die Bakterien und die Bakteriophagen in unserem Darm nun eigentlich miteinander klar und wie beeinflussen sie sich gegenseitig? Die mikroskopische Untersuchung von Stuhlproben ergab, dass etwa 108 bis 109 Viren und 109 Bakterienzellen pro Gramm Stuhl zu finden sind. Also etwa ein Verhältnis von 1:1 oder 0,1:1. Die verhältnismäßige Anzahl an Viren ist viel geringer als beispielsweise in Meeresproben. Auch findet sich im Darm kein klassischer “Räuber-Beute” Zyklus: viele Bakterien > viele Phagen, die die Bakterien infizieren > dadurch Reduzierung der Bakterien > weniger Phagen (“Räuber-Beute” ist in diesem Zusammenhang nicht ganz richtig, aber ihr wisst, was ich meine). Nur im Säuglingsdarm trifft man anfangs einmal auf diesen Zyklus (wie oben schon angesprochen). Die Bakteriophagen in unserem Darm sind also nicht besonders aggressiv, sondern führen einen eher “gemäßigten Lebensstil” (wenn ich das so sagen darf, für etwas, was man nicht mal als Lebewesen betrachtet). Daher sind Phagen im Darm mehr als nur “Raubtiere”. In einigen Fällen helfen sie sogar ihrem bakteriellen Wirt, sich in dem Ökosystem, in dem sie sich befinden (also in diesem Fall im Darm), einen Wettbewerbsvorteil zu verschaffen. Das bedeutet aber auch, dass die Wechselwirkungen zwischen Bakterien und Bakteriophagen im Darm für die bisher bekannten Modelle, die die Dynamik von Phagen und Bakterien in anderen ökologischen Umgebungen beschreiben, zu komplex sind. Hier sind neue Modelle erforderlich, insbesondere um diese Dynamik im Hinblick auf Krankheiten zu untersuchen.
Bleibt zu sagen, dass wir noch fast nichts wissen über unser Darmvirom. Was wir brauchen, sind größere Längsstudien, die sich sowohl auf die bakterielle als auch auf die virale Komponente des Darmmikrobioms konzentrieren. Und wir brauchen bessere viren-bioinformatische Analysen. Die meisten Virussequenzen in Metagenomstudien bleiben noch immer unidentifiziert (“Dunkle Marterie”). Dementsprechend sind auch die Auswertungen nicht vollständig und es kommt immer wieder zu Widersprüchen in den Forschungsergebnissen. Wichtig für die Zukunft ist, dass wir nicht nur weiter die Bakterien im Darm untersuchen, sondern vor allem auch die Rolle der Phagen im Blick behalten: Wie verändern Bakteriophagen die Zusammensetzung und Funktion der bakteriellen Komponente des Darms und welchen Einfluss haben sie dadurch auf unsere Gesundheit?
What is (not) known about the dynamics of the human gut virome in health and disease.
Beller L, Matthijnssens J.
Curr Opin Virol. 2019;37:52-57.
Abhilfe kann da wohl, wenn überhaupt, nur die Forschung schaffen. Dazu gehört nicht nur die intensive Forschung an bekannten und bisher unbekannten Viren und potentiellen Medikamenten und Impfungen gegen diese, sondern auch ein Forschungszweig, der sich explizit mit der Ausbreitung von Infektionskrankheiten beschäftigt, die sogenannte Epidemiologie.
Nun leben wir in einem Zeitalter, in dem die medizinische Forschung weit vorangeschritten ist und sich unsere Lebenserwartung um einige Jahre verlängert hat. Und doch wird die Menschheit immer wieder von Epidemien heimgesucht. Erst sind es nur einzelne sporadische Fälle; doch rasch wird daraus ein lokaler Ausbruch und greift man nicht sofort ein, breitet sich die Infektion rasant aus. Von einer Epidemie spricht man, wenn eine Krankheit lokal (und zeitlich) begrenzt vermehrt auftritt. Viele Ausbrüche enden auf natürliche Weise oder können schnell kontrolliert werden. Breitet sich die Krankheit aber gar über Länder oder Kontinente hinweg aus, spricht man von einer Pandemie. Die Ursachen für die steigende Zahl an Epidemien sind vielfältig und reichen vom Bevölkerungswachstum, über unsere Vorliebe für Reisen in ferne Länder, unsere Ernährungsgewohnheiten, bis hin zum Klimawandel. Diese Faktoren verstärken vor allem den Kontakt zwischen Menschen und sogenannten Reservoirwirten, häufig Säugetieren oder Insekten, die Infektionskrankheiten auf den Menschen übertragen. Angesichts der heutigen Mobilität der menschlichen Bevölkerung könnte sich ein Virus innerhalb von Tagen oder Wochen auf entfernte und stark bevölkerte Regionen ausbreiten.
Epidemien und Pandemien gab es in den letzten beiden Jahrzehnten viele (zum Teil von bis dato völlig unbekannten Viren): zum Beispiel die SARS-Pandemie 2002/2003 mit etwa tausend Todesopfern, die Schweinegrippe-Pandemie 2009/2010 mit über 18000 Toten, die Ebola-Epidemie 2014–2016 in Westafrika mit über 11000 Todesopfern, oder erschreckenderweise neuerdings auch immer wieder Masern-Epidemien.
Lange Zeit stützte man sich in der Epidemiologie hauptsächlich auf die Analyse von Falldaten, die im Verlauf eines Ausbruchs gesammelt wurden. Aus diesen Daten hat man die wichtigsten epidemischen Parameter (zum Beispiel die Übertragungsrate) geschätzt. Im 21. Jahrhundert wird auch diese Wissenschaft auf die “Big Data”-Ebene gehoben. Die wichtigsten Fragen werden heute durch die Sequenzierung viraler Genome und die bioinformatische Analyse dieser Sequenzdaten untersucht, um sie mit molekularer Präzision zu beantworten:
Sequenzierdaten sind deswegen so interessant, weil sich Viren (insbesondere RNA-Viren) schnell vermehren und ihre Genome sich rasant verändern können, sodass am Ende eines Ausbruchs nicht mehr die gleiche Genomsequenz vorliegt, wie zu Beginn. Diese Veränderungen lassen sich mittels Sequenzierdaten nachvollziehen und die Ausbreitung der Viren dadurch besser verstehen. Heutige Sequenziertechniken sind dazu in der Lage, virale Genome in Echtzeit (und zu relativ geringen Kosten) zu erfassen.
Trotz allen Fortschritts ist es uns aber noch immer unmöglich (und es wird wohl auch noch lange so bleiben), die nächste Virus-Epidemie vorherzusagen. Umso wichtiger ist es deshalb, im Falle eines Falles wissenschaftlich fundiert und effizient zu reagieren. Die folgenden Schritte helfen, Epidemien besser zu verstehen und schneller zu bekämpfen:
Die meisten Ausbrüche von Infektionskrankheiten beginnen damit, dass Ärzte ungewöhnliche Krankheitsmuster bemerken. Zu Beginn eines Ausbruchs ist es die wichtigste Aufgabe, den Erreger (nicht zwangsläufig ein Virus) zu identifizieren. In der Vergangenheit musste man dafür zum Beispiel zielgerichtet nach bestimmten Proteinen suchen, oder gar mit nichtmolekularen Techniken wie Mikroskopie arbeiten. Dank der Metagenomik benötigen wir nun gar kein Vorwissen über den Erreger und können ihn stattdessen direkt in einem Schritt mittels Sequenzierung identifizieren. Der große Vorteil: damit lassen sich auch neuartige oder unerwartete Viren erkennen. Zudem können sofort einige grundlegende Fragen zum Virus selbst beantwortet werden, zum Beispiel ob wir bereits wirksame Medikamente und/oder Impfstoffe zur Verfügung haben. Basierend auf den Sequenzdaten ist es unter anderem möglich, die evolutionäre Verwandtschaft zu anderen (bekannten) Viren zu untersuchen, die Verbindungen zu früheren Ausbrüchen aufzudecken oder potentielle Wirte zu erkennen.
Unmittelbar nach dem Ausbruch ist die Datenlage oft undeutlich, aber eigentlich ist genau dieser Zeitraum besonders wichtig, um effizient zu reagieren. Eines der Hauptanliegen besteht darin, die Veränderungsrate des Virus und die Ausbreitungsrate in der menschlichen Bevölkerung zu verstehen. Hier hilft die Sequenzierung, indem man sofort die genetische Vielfalt der zirkulierenden Viren untersuchen kann; quasi eine Momentaufnahme der Virusgenomsequenzen der ersten Krankheitsfälle. Je vielfältiger das Virus schon am Anfang eines Ausbruchs ist, desto schneller verändert es sich und desto gefährlicher ist es in der Regel. Die Daten geben auch wichtige Einblicke in die Frage, ob das Virus eher wiederholt von Tier auf Mensch übertragen wurde oder von Mensch zu Mensch weitergegeben wurde.
Die Virusgenomsequenzierung bietet ein enormes Potenzial für die Bestimmung von Übertragungsketten. Die Verfolgung von Übertragungsketten liefert wichtige Informationen, mit denen die Verbreitung von Viren unterbrochen und das Ausmaß eines Ausbruchs verringert werden kann. Traditionell hat man hierfür die Erkrankten nach ihren Kontakten befragt. Das Unterfangen ist nicht nur schwierig, weil es sehr aufwendig ist; es beruht vor allem auch auf der Bereitwilligkeit der Erkrankten, sich befragen zu lassen, deren Ehrlichkeit und Gedächtnis. Die Analyse der Virusgenome liefert wesentlich detailliertere Informationen über die Verzweigungsmuster der Übertragung.
Evolutionäre Schlussfolgerungen aus Virusgenomen werden verwendet, um die Ausbreitung des Virus zu analysieren und abzuschätzen, wie sich eine Epidemie über Zeit und Raum entwickeln wird. Dabei werden die räumlichen Muster der Virusausbreitung aufgedeckt und die räumliche Vorgeschichte rekonstruiert. Wichtig ist es vor allem auch, Faktoren zu erkennen, die die Ausbreitung des Virus beeinflussen, insbesondere in Hinblick auf unser globales Reiseverhalten.
Die Analyse von Virussequenzdaten über verschiedene Ausbrüche hinweg gewährt Einblicke in die Evolutionsmuster zwischen Epidemien. Die grundlegendste Frage ist wohl, ob das Virus in der Lage war, zwischen den Ausbrüchen in der menschlichen Population zu überleben, oder der erneute Ausbruch wieder durch eine Übertragung vom Tier ausgelöst wurde. Die Ebola-Epidemien, die seit den 1970er Jahren relativ häufig aufgetreten sind, begannen zum Beispiel alle durch Übertragung von Tieren (vermutlich Fledermäusen).
Damit ein Virenausbruch so gründlich und effizient untersucht werden kann, wie eben beschrieben, sind die Forscher vor allem auf den rechtzeitigen Zugang zu klinischen Proben und Daten angewiesen. Dafür ist es notwendig, dass Kliniken, Gesundheitsbehörden, lokale Einsatzkräfte und Wissenschaftler Hand in Hand arbeiten. Dabei sind die reinen Virensequenzen nur ein Bruchteil der benötigten Information. Um eine klinische Probe sinnvoll analysieren und in den Kontext einordnen zu können, braucht es einen Mindestsatz von Metadaten, insbesondere das Datum und den Ort der Probenentnahme und/oder des ersten Auftretens der Symptome. Für die Untersuchung der räumlich-zeitlichen Geschichte und die Ausbreitung eines Ausbruchs helfen Daten über die Reise- und Kontakthistorie der Erkrankten, die vermutete Infektionsquelle, die zeitliche und räumliche Verteilung der Erkrankungen, die zugrundeliegenden ökologischen Bedingungen und Umweltfaktoren. Auch Informationen wie Alter, Geschlecht und wirtschaftlicher Status können dazu beitragen, Risikofaktoren der Infektion aufzudecken.
Besonders wichtig ist in diesem Zusammenhang das “Open Science”-Konzept. Ein Virus sofort sequenzieren zu können hilft nur, wenn die in verschiedenen Laboren sequenzierten Genome auch miteinander verglichen und gemeinsam analysiert werden können. Es ist also dringend erforderlich, dass Daten während laufender Epidemien unmittelbar verbreitet werden und nicht erst nachdem eine entsprechende wissenschaftliche Publikation veröffentlicht wurde. Genau genommen nicht nur die Daten, sondern auch die (informatischen) Methoden, die zu deren Analyse entwickelt wurden. Offene Wissenschaft führt nicht nur zu genaueren wissenschaftlichen Einsichten, sondern hilft auch, die relevanten Informationen schnell in die Hände von Entscheidungsträgern zu befördern. Oder anders gesagt: Wem nützt schon die Nature/Science-Publikation, wenn wir letztlich alle dem Apokalypse-Virus zum Opfer fallen?
Tracking virus outbreaks in the twenty-first century.
Grubaugh ND, Ladner JT, Lemey P, Pybus OG, Rambaut A, Holmes EC, Andersen KG.
Nat Microbiol. 2019;4(1):10-19.
Um die wissenschaftlichen Entdeckung der Chemie aus mehr als 200 Jahren zu analysieren, haben die Autoren natürlich nicht tausende Veröffentlichungen gewälzt, sondern die Geschichte der Chemie mit einem vollständig datengetriebenen Ansatz aufgerollt. Soll heißen, sie haben sich die größte Reaktionsdatenbank geschnappt, die bis ins 19. Jahrhundert zurückreicht und in der sich etwa 42 Millionen Reaktionen mit über 20 Millionen Substanzen befinden, und darauf eine Menge Statistiken berechnet.
Das “chemische Universum” umfasst alle möglichen chemischen Strukturen, von kleinen Molekülen wie Wasser, bis zu riesigen Molekülen wie Proteinen. Dazu zählen sowohl Substanzen, die auf natürliche Weise vorkommen, aber auch Substanzen, die chemisch synthetisiert werden müssen, das heißt durch eine Reaktion von zwei oder mehreren Verbindungen hergestellt werden. Jedes Jahr dehnt sich das “chemische Universum” um 4,4 Prozent aus, das heißt, jedes Jahr werden 4,4 Prozent neue chemische Strukturen entdeckt; davon etwa die Hälfte durch Synthese. Und das relativ konstant seit 1800. “Relativ”, weil dieses Wachstum natürlich auch Schwankungen unterlag, unter anderem durch gesellschaftliche, aber auch durch wissenschaftliche Ereignisse.
Wissenschaftlich lassen sich in den Daten drei verschiedene Perioden erkennen, deren Übergänge sich überraschenderweise ziemlich scharf abtrennen lassen: das protoorganische, das organische und das organometallische “Zeitalter”. Während der Übergänge zwischen den Zeitaltern waren die Wachstumsraten leicht gestört, aber die Chemie kehrte schnell zu ihrem Wachstumstrend von 4,4 Prozent zurück.
Im protoorganischen Zeitalter (1800–1860) und vor allem in den ersten Jahren, schwankte die jährliche Wachstumsrate noch recht stark. In diesem Zeitalter dominierten anfangs Kohlenstoff- und Wasserstoff-Verbindungen, später Verbindungen auf Kohlenstoff-, Wasserstoff-, Stickstoff-, Sauerstoff- und Halogenbasis. In dieser Zeit wurde der chemische Raum noch hauptsächlich durch Extraktion von Substanzen aus tierischen und pflanzlichen Produkten erweitert; Synthese fand wenn, dann basierend auf typisch anorganischen Verbindungen statt.
Im zweiten Zeitalter, dem organischen Zeitalter (1861–1980), wurden neue Substanzen bereits mit einer viel größeren Regelmäßigkeit entdeckt. Diese Regelmäßigkeit lässt sich wissenschaftlich auch mit der Einführung der Valenz- und Strukturtheorie in Verbindung bringen, die die Forschung in der organischen Chemie um 1860 veränderte. Ab da gingen die Chemiker in ihrer Arbeit wesentlich planmäßiger vor und die Neuentdeckungen waren dadurch weniger vom Zufall bestimmt als in der Epoche zuvor.
Im organometallischen Zeitalter (1981-heute) erlebten die Metallverbindungen ein Revival, sowohl als Ausgangsstoffe als auch als Endprodukte chemischer Reaktionen. Zehn Prozent der neuen Verbindungen basierten auf Platinmetallen. Siliciumverbindungen, bisher kaum beachtet in der Geschichte der Chemie, wurden zu Stars. Noch stärker als in der vorherigen Epoche wurde regelmäßig eine Verbindung nach der anderen synthetisiert. Ab etwa 1995 gewannen vor allem bioorganische Verbindungen an Interesse.
Interessanterweise wurden nicht nur neue Strukturen entdeckt, sondern auch neue Stoffzusammensetzungen, also die Menge an Elementen, aus denen die Moleküle bestehen (unabhängig von deren Verhältnis, vgl. Summenformel). Unangefochten auf Platz 1 stehen seit 1890 die Substanzen, die sich rein aus Kohlenstoff, Wasserstoff, Stickstoff und Sauerstoff zusammensetzen. Alles in allem wurde das “chemische Universum” also bisher eher ohne rechten “Plan” abgegrast. Nur wenige der Stoffzusammensetzungen sind überhaupt ausführlich untersucht.
Wie zu erwarten, hatten die beiden Weltkriege einen drastischen Einfluss auf die Wissenschaft und führten zum vorübergehenden Einbruch in der Anzahl der neu entdeckten chemischen Substanzen. Die Auswirkungen des Ersten Weltkriegs waren besonders verheerend, insbesondere weil sich die chemische Industrie und Forschung in der Zeit vor dem Ersten Weltkrieg auf Deutschland konzentrierte. Im Nachhinein führte der Krieg zu einem raschen Aufstieg der Chemie in anderen Ländern, insbesondere den USA. Vielleicht auch deshalb waren die Auswirkungen des Zweiten Weltkrieges auf die Anzahl chemischer Neuentdeckungen weniger stark zu spüren. Nach beiden Kriegen erholte sich die chemische Forschung (so wie auch andere Forschungsgebiete) von diesen Rückschlägen relativ schnell und kehrte zu ihrer Wachstumskurve von etwa 4,4 Prozent pro Jahr zurück.
Die Kriege führten aber auch zu einer Verlagerung der chemischen Forschung. Während des Ersten Weltkriegs nahm unter anderem die Bedeutung von Arsen-, Antimon- und Bismut-Verbindungen zu, während die von Aluminium, Gallium, Indium und Thallium abnahm. Das Interesse an Arsen-Verbindungen erklärt sich vermutlich durch die verschiedenen im Ersten Weltkrieg entwickelten Arsen-Kampfstoffe. Während des Zweiten Weltkrieges wurden Stickstoffverbindungen und Alkalimetalle zunehmend uninteressant, während Schwefel, Bor, Phosphor und Silicium an Interesse gewannen. Phosphorverbindungen wurden vor allem relevant, als ihr Rolle in alltäglichen Anwendungen und als neuartige Insektizide und andere industrielle Materialien bekannt wurde.
Interessanterweise, waren und sind die Chemiker recht konservativ bei der Wahl ihrer Ausgangsstoffe. Die meisten Substrate werden nur ein einziges Mal als Ausgangsstoff verwendet; die “Lieblingsstoffe” jedoch immer wieder. Ein möglicher Grund ist sicher die leichte Verfügbarkeit dieser Substanzen. In der Tat umfassen die meisten Reaktionen typischerweise zwei Ausgangsstoffe: eine weniger bekannte Substanz und einen “Klassiker” aus dem Synthesewerkzeugkasten. Zu Beginn des 19. Jahrhunderts waren vor allem starke Säuren und Basen beliebt, später vor allem organische Substanzen. Einer der Topstars ist Essigsäureanhydrid, das 1852 synthetisiert wurde und seit 1880 besonders gern für Acetylierungsreaktionen verwendet wird. Eine Acetylierung ist der Austausch von einem Wasserstoffatom durch eine Acetylgruppe (C2H3O), wobei entsprechende Verbindungen entstehen (zum Beispiel Aceton, Heroin oder Himbeerketon, die Hauptgeruchskomponente von Himbeeren).
Alles in allem wirft die Studie die Frage auf, warum die Chemie trotz gesellschaftlicher und wissenschaftlicher Störfaktoren eine so stabile Wachstumsrate von 4,4 Prozent beibehält? Die Forscher basteln derzeit an formalen Modellen, um diese Frage weiter zu untersuchen. Ich bin gespannt!
Exploration of the chemical space and its three historical regimes.
EJ Llanos, W Leal, DH Luu, J Jost, PF Stadler, G Restrepo.
Proc Natl Acad Sci USA, pii: 201816039, 2019
Trotzdem möchte ich den Blog nicht sterben lassen, denn er ist mir immer noch eine Herzensangelegenheit. Wissenschaftskommunikation finde ich extrem wichtig; denn was nützen die spannendsten wissenschaftlichen Erkenntnisse, wenn sie immer nur einem kleinen Kreis bekannt sind? Und mit diesem kleinen Kreis meine ich nicht einmal Wissenschaftler allgemein, sondern nur genau die Menschen, die am selben Thema forschen. Das ist einfach zu wenig!
Deswegen habe ich mir vorgenommen, hier häufiger Zusammenfassungen aktueller Publikationen zu schreiben, die sowieso auf meinem Lesestapel liegen. Hauptsächlich werde ich nun also über Viren (nicht die aus dem Computer, sondern die realen) und Viren-Bioinformatik schreiben. Vorteil für euch: Die Themen sind brandaktuell!
Los geht’s heute mit einem Review Paper über das Hepatitis-E-Virus. Reviews sind Übersichtsartikel, die den allgemeinen Stand der Forschung zusammenfassen. Dankenswerterweise machen sich Forscher hier und da die Mühe, solche Übersichten zu verfassen und ersparen damit anderen Forschern eine Menge Recherchearbeit. In der Publikation, die ich eben gelesen habe, geht es um den Stand der Entwicklung von Wirkstoffen gegen das Hepatitis-E-Virus.
Das Hepatitis-E-Virus (kurz HEV) verursacht (wie der Name schon andeutet) eine Hepatitis, also eine Entzündung der Leber. HEV verursacht mehr Fälle von akuter Hepatitis als jedes andere humane Hepatitis Virus (Hepatitis A, B, C, D). HEV wird hauptsächlich über kontaminiertes Trinkwasser übertragen, aber auch durch unzureichend gekochtes Fleisch oder durch Kontakt mit infizierten Tieren wie Schweinen, Wildschweinen und Rehen. In Deutschland haben etwa 17% der Menschen Antikörper gegen HEV, können sich also nicht mit einer Hepatitis infizieren. Die meisten HEV-Infektionen verlaufen ohne wesentliche Symptome. Es gibt aber auch Risikogruppen und zwar, wie bei den meisten Infektionen, Menschen mit geschwächtem Immunsystem und Schwangere. Bei Schwangeren führt eine Infektion in rund einem Viertel der Fälle zum Tod. Die derzeitigen Therapiemöglichkeiten gegen HEV beschränken sich auf die Anwendung unspezifischer Virostatika, also Medikamente, die die Vermehrung von Viren allgemein hemmen.
Es gibt mehrere Wege auf der Suche nach einem wirksamen Mittel gegen HEV: (1) die Suche nach völlig neue Wirkstoffen, (2) das Testen bereits vorhandener Medikamente gegen andere Infektionen auf ihre Wirksamkeit gegen HEV und (3) die Suche nach möglichen “Angriffspunkten” im Virus oder im Wirt, um daraufhin gezielte Medikamente zu entwickeln.
Auf der Suche nach neuen Wirkstoffen, stießen Forscher zum Beispiel auf die antivirale Aktivität von Ethanolextrakten aus Pflanzen (einer ostasiatischen Primelart und einem koreanischen Spargelgewächs) gegen HEV. Welcher Wirkstoff genau gegen die Viren wirkt, hat man jedoch nicht untersucht, ebenso wenig Giftigkeit, die Möglichkeit der Resistenz gegen das Mittel, geschweige denn die Wirksamkeit im lebenden Organismus.
Beim Testen bereits bekannter Wirkstoffe ist es naheliegend, zuerst einmal auf Mittel gegen andere Hepatitisinfektionen zurückzugreifen. Sofosbuvir zum Beispiel ist ein Wirkstoff zur Behandlung der chronischen Hepatitis C, und ist derzeit der einzige Kandidat in klinischen Studien gegen HEV. Vorläufige Ergebnisse deuten aber darauf hin, dass dies kein Durchbruch in der HEV-Therapie sein wird. Seine antivirale Wirksamkeit ist mäßig, es könnte aber in Kombination mit den oben genannten unspezifischen Virostatika weiter untersucht werden.
Silvestrol ist ein Naturstoff, der ausschließlich in Mahagonigewächsen vorkommt. Silvestrol ist eigentlich aus der Krebstherapie bekannt, wurde aber auch schon als Virenhemmer beschrieben. Silvestrol blockiert die Translation der Viren. Der Wirkstoff ist vergleichsweise gut charakterisiert und ein vielversprechender Kandidat in der Behandlung gegen HEV; besonders in Fällen, in denen die eingangs genannten unspezifischen Virostatika bereits unwirksam sind. Ein weiterer Schritt ist nun zum Beispiel die Erforschung möglicher Resistenzen.
Ein weitaus vielversprechenderer Weg um neue Medikamente zu finden, ist, zuerst einmal nach möglichen “Angriffspunkten” für diese Medikamente zu suchen. Das können sowohl Angriffspunkte am Virus selbst sein, aber auch wirtseigene Faktoren, die für den viralen Lebenszyklus notwendigen sind. Denn Viren haben in der Regel sehr kleine Genome (also sehr wenig “Lebensinformation”) und sind daher stark von ihren Wirten abhängig, um ihren Lebenszyklus zu vervollständigen. Diese Abhängigkeit vom Wirt ist ein möglicher Angriffspunkt. So kann man zum Beispiel versuchen zu verhindern, dass die Viren überhaupt in die menschlichen Zellen eindringen.
Das oberste Ziel wäre es, Wirkstoffe zu entdecken, die spezifisch auf die viralen Enzyme abzielen, zum Beispiel auf die HEV-Polymerase, die zur Vermehrung des Virus unabdingbar ist. Diese sogenannten “direkt wirkenden Virostatika” sind hochspezifisch und waren zum Beispiel bei der Behandlung von Hepatitis C ein Durchbruch mit hohen Heilungsraten. Um einen solchen Wirkstoff zu entwickeln, ist es jedoch unabdingbar, die Struktur des Enzyms genau aufzuklären. Leider wurde bisher keiner der potentiellen Anti-HEV-Wirkstoffe auf der Grundlage einer solchen Enzymstruktur entworfen.
Ein weiterer Eckpfeiler bei der Bekämpfung von HEV wird die Identifizierung neuer Wirtsfaktoren sein, denn auch hier sind bisher nur wenige bekannt. Hier müssen alle “omics” Bereiche untersucht werden, um die veränderte zelluläre Umgebung während einer HEV-Infektion zu entschlüsseln. Auf der Suche nach möglichen “Angriffspunkten” ist die Bioinformatik ein unerlässliches Instrument, von der Aufklärung der Enzymstrukturen der Viren bis hin zum Verständnis der Immunreaktion des Menschen.
Ein Möglichkeit, die ich bisher noch gar nicht erwähnt habe, wäre, einen Impfstoff gegen HEV zu entwickeln. Ein Impfstoff befindet sich bereits in klinischer Erprobung und wurde in China sogar bereits zugelassen. Es gibt aber auch hier noch viele offenen Fragen, allen voran die Wirksamkeit bei Risikopatienten und ob man sich zur Bekämpfung einer HEV-Epidemie ausschließlich auf einen Impfstoff verlassen kann.
Am Rande sei noch erwähnt, dass keiner der in diesem Artikel vorgestellten Medikamentenkandidaten für die Anwendung bei schwangeren Frauen zugelassen ist.
Publikation: Hepatitis E Virus Drug Development. V Kinast, T L Burkard, D Todt, E Steinmann. Viruses 2019, 11(6), 485.
]]>Die Nominierung zum Wissenschaftsblog des Jahres ist für mich aber ein großer Ansporn, weiter zu machen. Wissenschaftskommunikation liegt mir noch immer sehr am Herzen und das Interesse der Leser zeigt mir, dass die Arbeit nicht umsonst ist. Wenn ihr meine Texte aus der Welt der Bioinformatik bisher interessant fandet und Lust habt, wieder mehr von mir zu lesen, dann schaut doch mal beim Voting vorbei und lasst Eure Stimme für mich da — oder für einen der vielen anderen spannenden Blogs. Ende der Abstimmung ist am 1. Januar 2018 um 24.00 Uhr.
Wem die Wartezeit bis zum nächsten Beitrag zu lang dauert, für den gibt es bei den 3 Formeltieren was auf die Ohren. Denn ganz untätig war ich 2017 auch nicht. Florian, Johannes und ich quatschen dort jeden Monat das Internet voll, offiziell über Formeln, aber auch über Doctor Who, Kaffee, Katzenbilder, Verschwörungstheorien, Eis und alles was uns sonst noch so in den Sinn und über die Lippen kommt.
In diesem Sinne wünsche ich Euch allen eine besinnliche Weihnachtszeit!
]]>Viel habe ich gelernt in diesem ersten Jahr. Über das Schreiben, über das Vermitteln komplexer Sachverhalte, aber auch inhaltlich bei der Recherche bioinformatischer Themen an denen ich selbst nicht forsche, oder beim Lesen anderer Blog-Beiträge. Ich bin in die ScienceBlogs.de Community aufgenommen wurden und durfte sogar Teil der Blog-Schreibwettbewerb Jury sein. Ich durfte eine Menge interessanter Fragen meiner Leser sammeln, von denen ich die ein oder andere Frage bereits beantworten konnte, von denen aber auch viele noch auf meiner ToDo-Liste stehen. Ich durfte ehemalige Kommilitonen interviewen und dabei verschiedenen Karriereoptionen kennenlernen. Andere Kollegen durfte ich auf ihrem Weg zum Doktortitel begleiten. Und ich durfte verschiedene Wissenschaften unter einem farbigen Motto vereinen.
Für mich hat sich viel verändert in diesem Jahr — sowohl beruflich als auch privat. Ich war auf der Suche nach beruflicher Orientierung, und dieser Blog ist ein Teil meiner beruflichen Identität geworden. Gleichzeitig gibt es einige neue Projekte, die mich im Moment stark einbinden, sodass in den letzten Wochen wenig Zeit für das Bloggen geblieben ist.
Über das Jahr habe ich 39 Beiträge geschrieben, von denen ich euch die zehn beliebtesten noch einmal kurz vorstellen möchte:
Für das kommende Jahr wünsche ich mir wieder mehr Zeit zum Schreiben und viele neue, spannende Beiträge rund um Biologie, Informatik und die Verbindung beider Wissenschaften. Und natürlich eine treue und vielleicht auch wachsende Leserschaft.
In diesem Sinne wünsche ich euch allen ein gesundes, lehrreiches, spannendes und erfolgreiches Jahr 2017!
]]>Bei Foldit dreht sich alles um Proteinfaltung. Proteine sind die molekularen Maschinen in unserem Körper und haben sehr viele wichtige, und sehr unterschiedliche Funktionen. Sie sind zum Beispiel dafür verantwortlich, dass Nahrung von uns verdaut wird (Enzyme) oder dass Sauerstoff über unser Blut transportiert wird (Hämoglobin). Sie sind aber auch Teil unseres Immunsystems (Antikörper), sind für den Aufbau von Haut, Muskeln, Knochen und Haaren verantwortlich und sorgen dafür, dass wir uns verlieben (Hormone).
Den Aufbau eines Proteins kann man auf mehreren Ebenen beschreiben. Zunächst einmal bestehen Proteine aus einer Kette aus Aminosäuren. Die Reihenfolge der Aminosäuren eines Proteins ist in der DNA gespeichert und lässt sich daraus relativ leicht ablesen, wenn man den genetischen Code als Übersetzungshilfe zur Hand hat. Aber Proteine liegen in unseren Zellen nicht als bloße Aminosäureketten vor. Erst wenn sich die Kette zu einer kompakten 3D-Struktur zusammenfaltet, werden die Proteine funktionstüchtig.
Die Energie einer solchen Struktur wird durch Bindungen und Anziehungskräfte zwischen den Aminosäuren bestimmt. Für jedes Protein gibt es eine 3D-Struktur, in der sich das Protein im Energieminimum befindet. Man nennt diese Struktur native Form des Proteins und sie ist die Struktur, in der das Protein funktionstüchtig ist. Diese native 3D-Struktur aus der Aminosäurekette vorherzusagen ist extrem schwer, sogar für Computer. Die Energie einer 3D-Struktur lässt sich zwar berechnen, der Suchraum aller möglichen Strukturen die eine solche Kette annehmen könnte ist jedoch riesig. Stellt euch einfach einen Faden vor und die vielen verschiedenen Möglichkeiten, wie dieser zusammengeknüllt werden könnte. Jede kleine Änderung ändert auch die Energie des Knäuels.
Es gibt Algorithmen, die die Faltung einer Aminosäurekette zur nativen 3D-Struktur berechnen. Die Rechenzeit dieser Algorithmen ist jedoch oft enorm. Häufig können Falt-Algorithmen nur kleine Teilstrukturen (sogenannte Domänen) berechnen.
Wissenschaftler der Universität Washington haben ein Spiel entwickelt, in dem Proteinfaltung zur Rätselaufgabe wird: Foldit (“falte es”). Ziel für jeden Spieler ist es den Highscore zu knacken, in dem man die Energie des Proteins minimiert. Biochemische Vorkenntnisse braucht ihr dafür keine. Die verschiedenen Möglichkeiten die Aminosäurekette zu bearbeiten (auseinander ziehen, drehen, wieder zusammenfalten und so weiter), lernt ihr spielerisch mit Anleitung in den ersten Levels. Der Rest gleicht dann eher einem Puzzle oder einem Knobelspiel. Dabei stellt ihr euch der Konkurrenz der anderen Spieler oder arbeitet gar im Team. Somit durchsuchen viele Menschen gleichzeitig den riesigen Suchraum der möglichen 3D-Strukturen. Der Vorteil liegt aber gar nicht darin, dass sich viele Menschen gleichzeitig mit dem Problem beschäftigen (ebenso könnte man die Berechnung einfach auf viele Rechner verteilen). Der Vorteil liegt in der menschlichen Fähigkeit zur Mustererkennung und visuellen Problemlösung, die ein Computer nicht besitzt.
Um das ein wenig verständlicher zu machen, stellt euch den Suchraum mal als eine Art Landschaft — am besten ein Gebirge — vor. In diesem Gebirge wollt ihr den höchsten Berg erklimmen; ohne zu wissen, wo dieser sich befindet. Der höchste Berg ist sozusagen das richtige Ergebnis. Viele Suchalgorithmen sind so aufgebaut, dass sie an einer zufälligen Stelle starten und dann immer bergauf gehen. Das kann man zum Beispiel hundert Mal wiederholen und hat dann hoffentlich den höchsten Berg gefunden. Vielleicht steht man dann aber auch nur auf dem zweithöchsten Berg, obwohl der höchste Gipfel direkt neben einem liegt. Zuerst muss man nun wieder ins Tal, um dann auf den höchsten Berg zu gelangen. Der Suchalgorithmus kann das nicht erkennen; er hat den visuellen Einblick nicht und ist angewiesen immer nur bergauf zu gehen. Der Mensch sieht jedoch den höheren Gipfel (und somit das bessere Ergebnis) und ist deswegen gewillt, den Weg durchs Tal auf sich zu nehmen.
Der zweite Vorteil liegt in den unterschiedlichen Suchstrategien, die Menschen zur Problemlösung verwenden. Keine dieser Strategien muss generell die beste sein. Bei unterschiedlichen Proteinen können unterschiedliche Strategien zum Erfolg führen. Manche Spieler sind eher gut darin grobe Strukturen zu lösen, andere eher feine Strukturen. Das wissenschaftliche Ziel von Foldit ist gar nicht unbedingt, die Struktur eines einzelnen Proteins zu entschlüsseln (obwohl auch das den Spielern bereits gelungen ist). Das Ziel ist eher, sich die Lösungsansätze der Spieler abzugucken und diese wiederum in Algorithmen zu packen, um damit die Struktur sehr vieler Proteine entschlüsseln zu können.
So hat man bereits erkannt, in welchen Bereichen die Stärken der Spieler liegen und wo die Schwächen. Menschen fällt es zum Beispiel schwer, die Faltung von der schlichten Kettenform aus zu beginnen. Wesentlich einfacher fällt es, eine bestehende Struktur umzuordnen. Hat ein Spieler die Möglichkeit aus verschiedenen Knäueln als Startpunkt zu wählen, wählt er intuitiv schon das der Lösung am nächsten liegende. An Stellen, in denen Algorithmen per Zufall den nächsten Schritt entscheiden würden (zum Beispiel auf einen zufälligen Punkt der Landkarte zu springen und dort erneut bergauf zu wandern) entscheidet der Mensch schlauer als der Zufall.
Proteinfaltung findet ihr eher langweilig? Nun, Foldit ist bei weitem nicht das einzige Spiel auf dem Markt, mit dem ihr euren eigenen Beitrag zur Wissenschaft leisten könnt. Hier noch zwei weitere Spiele aus dem Bereich der Bioinformatik:
Phylo beschäftigt sich mit einer der ersten Felder der Bioinformatik: der Rekonstruktion phylogenetischer Bäume — also evolutionärer Stammbäume. Dafür vergleicht man zum Beispiel DNA Sequenzen und errechnet deren Abstände zu einander: wie viele Änderungen muss ich in der Sequenz des Affen vornehmen, um die Sequenz des Menschen zu erhalten? Je größer die Anzahl der Änderungen, desto weiter sind die Lebewesen voneinander entfernt. Zwei Sequenzen zu vergleichen ist algorithmisch einfach. Zwei Lebewesen ergeben jedoch keinen besonders spannenden Stammbaum. Sehr viele Sequenzen zu vergleichen braucht wiederum viel Rechenzeit. Bei Phylo könnt ihr diese Aufgabe in eure Hände nehmen, dabei eure Mustererkennungsfähigkeiten unter Beweis stellen und helfen, genetische Krankheiten besser zu verstehen.
Auch bei EteRNA geht es um Faltung. Diesmal jedoch um die Faltung der RNA. Auch RNA ist in ihrer Grundstruktur eine Kette (aus Nukleotiden, nicht aus Aminosäuren). Die Nukleotide können über die Kettenstruktur hinaus untereinander Bindungen eingehen, wodurch sich eine Sekundärstruktur bildet. Diese zweidimensionalen Strukturen ermöglichen der RNA viele regulierende Funktionen. In diesem Spiel geht es darum, gezielt die Nukleotide in der RNA-Kette zu ändern, um stabilere Strukturen zu erzeugen. Die RNA-Ketten der besten Strukturen werden dann im Labor synthetisch hergestellt und deren Strukturen mit den vorhergesagten verglichen. Das soll wiederum helfen, RNA-Faltung besser zu verstehen, die Vorhersagealgorithmen zu verbessern, und gezielt bestimmte RNA Strukturen mit bestimmten Funktionen herstellen zu können. Solche RNAs könnten zum Beispiel in der Medizin verwendet werden. Die EteRNA Spieler haben es übrigens bereits zur einer Publikation in einem wissenschaftlich hoch renommierten Journal gebracht und Supercomputer in verschiedenen Design Challenges geschlagen.
Nicht nur in der Bioinformatik werden sich die Fähigkeiten der Menschen spielerisch zu Nutze gemacht. Ähnliche Spiele findet ihr auch in der Medizin, der Astronomie, der Artenforschung und selbst im Bereich der Kunst. Also los, traut euch — jeder kann seinen Beitrag zur Wissenschaft leisten!
]]>Heute bin ich zu Besuch bei Kathi in Keinsteins Kiste. In meinem recht chemischen Beitrag erzähle ich, was Halogene alles können: von Anwendung in der Küche bis Anwendungen im Krankenhaus. Und wie Bioinformatiker zu Schatzsuchern werden.
]]>Ich habe in diesem Monat viel gelernt, insbesondere auch über Themengebiete, die außerhalb meines Fachgebietes liegen. Wenn ein solcher Beitrag es schafft, mich zu fesseln und meinen Wissensdurst weckt, dann spricht das also nicht unbedingt nur für das Thema, sondern besonders für den Autor. So habe ich zum Beispiel einiges über Astronomie und Physik gelernt (davon habe ich wirklich wenig Ahnung; Astronomie gab es bei uns sowieso nur in Klasse 10 und Physik habe ich in der Oberstufe II abgewählt). Außerdem gab es Einblicke in Forschungsgebiete, von denen ich bisher noch nie etwas gehört hatte (im Siegerbeitrag über Forensische Linguistik zum Beispiel). Es gab aber auch eine Anzahl an Beiträgen, die sich gar nicht mit einem speziellen Forschungsgebiet, sondern mit viel allgemeineren Fragen beschäftigt haben, zum Beispiel der gegenseitigen Verachtung zwischen Wissenschaft und Industrie. Häufig kam auch das Thema auf, wie wichtig es ist, Wissenschaft über die Grenzen der Wissenschaft hinaus zu kommunizieren. Wir (die Wissenschaftsblogger) und ihr (die interessierten Wissenschaftsblogleser) sind Vorreiter auf diesem Gebiet, aber hier herrscht großer Nachholbedarf.
Die Beiträge, die mich persönlich besonders begeistert haben, möchte ich euch kurz vorstellen. Ich freue mich besonders, dass sich von meinen Favoriten auch acht in den Top 10 wiederfinden. Die Liste ist in der Reihenfolge der Veröffentlichung geordnet, nicht nach Qualität. Alle dieser Beiträge gefielen mir etwa gleich gut. Was ich daran besonders fand, fasse ich euch kurz zusammen:
Beeindruckend fand ich die hohe Anzahl an Beiträgen von Schülern, die zum Großteil sehr gut geschrieben waren. Vielleicht liegt es daran, dass Schüler noch über ein sehr breitgefächertes Wissen verfügen, statt extrem spezialisiertem Fachwissen auf einem bestimmten Gebiet. So schafften es zwei der Schülerbeiträge sogar in die Top 5. Hier eine Liste der aus meiner Sicht lesenswerten Schülerbeiträge (natürlich nur derer, die sich als Schüler zu erkennen gegeben haben):
Die Beiträge bauen auf Abiturwissen auf. Das macht sie oft besonders gut lesbar und verständlich. (Hobby-)Wissenschaftler neigen oft dazu, nicht mehr erkennen zu können, wo ihr Fachwissen eigentlich beginnt (auch zu diesem Thema gab es einen interessanten Beitrag). Unabhängig davon, wie spannend und verständlich die Beiträge geschrieben sind, freue ich mich über die Begeisterung der Schüler für wissenschaftliche Themen und ich hoffe, dass viele von euch ihren Weg in die Wissenschaft finden werden.
Allen Teilnehmern möchte ich Danke sagen, für die Zeit, die sie in Recherche und Schreibarbeit gesteckt haben. Es war mir eine Freude mich auf so viele neue Themengebiete einzulassen und freue mich schon auf nächstes Jahr!
]]>Die Seite soll ein kunterbuntes Sammelbecken der unterschiedlichsten Wissenschaften werden. Einzige Gemeinsamkeit der Beiträge: Jeder Beitrag dreht sich um eine bestimmte Farbe und handelt entweder von der Farbe selbst oder von etwas, das typischerweise diese Farbe hat.
Zum Beispiel: Ein graues Feld enthält einen Beitrag über Elefanten; ein grünes Feld enthält einen Beitrag über Gras; und so weiter. Dabei darf es ruhig mehrere grüne Felder geben (es gibt schließlich so viele verschiedene Grüntöne). Die ersten Beispiele findet ihr bereits im Farbspektrum.
Und jetzt seid ihr gefragt! Habt ihr bereits einen Beitrag zu einer bestimmten Farbe geschrieben? Oder habt ihr Lust einen solchen Beitrag zu verfassen? Dann sendet mir den Link zu euren Beiträgen und den entsprechenden Farbcode (als RGB, Hex oder ähnliches) an franziska.hufsky@uni-jena.de.
Für diese Blogaktion gibt es keinen Einsendeschluss. Das Farbspektrum der Wissenschaft soll stetig wachsen. Falls ihr selbst keinen eigenen Blog betreibt, aber trotzdem einen farbigen Wissenschaftsbeitrag schreiben wollt, dann meldet euch gerne trotzdem bei mir. Ein Beitrag auf meinem Blog unter eurem Namen wäre dann die einfachste Lösung.
Wenn ihr noch Fragen habt, scheut euch nicht, sie zu stellen.
Ich freue mich auf viele spannende Beiträge!
]]>
Hinweis: Dieser Beitrag wurde NICHT gesponsert. Dieser Beitrag ist ein persönliches Interview.
Nach dem Abitur habe ich mich für verschieden Fachbereich interessiert; u.A. für Medizin und Informatik. Nur Informatik war mir nicht genug und so habe ich eine Möglichkeit gesucht, das miteinander zu verbinden. Der Studiengang Bioinformatik war dann genau das Richtige.
Ich habe an er Friedrich-Schiller-Universität in Jena studiert. Es gab viele Kombinationsmöglichkeiten und Vertiefungsrichtungen, die man wählen konnte. Das fand ich sehr gut, da man nach den eigenen Interessen gehen konnte. Es gab sowohl die Möglichkeit, sich eher mathematisch-informatisch als auch biologisch auszurichten. Im Besonderen waren die spezifischen Bioinformatik-Vorlesungen interessant, die zum Zeitpunkt meiner Studienortwahl eher selten anzutreffen waren.
Nach meiner Arbeit am Institut für Physikalische Chemie stand für mich die Entscheidung an, was ich in Zukunft machen möchte. Am Institut war ich einer der zuständigen Personen für die Datenauswertung und Algorithmenentwicklung zur Identifikation von Bakterien und Viren.
Gerade die Möglichkeiten von Predictive Analytics interessieren mich sehr und ich habe viele Einsatzgebiete dafür gesehen: Von der Biologie, also klassische Bioinformatikbereiche bis hin zur industriellen Fertigung. Viele kleine und mittelständische Unternehmen können sich keinen Spezialisten (wie es sie am Institut gab) leisten, oft, weil es dann doch nur wenig Arbeit über das Jahr verteilt geben würde, könnten jedoch stark vom Einsatz maschinellen Lernens profitieren. Auf dieser Basis erschien es mir sinnvoll, das Ganze als Dienstleistung anzubieten. Schlussendlich haben ich mich für eine Unternehmensgründung (Alpha Analytics) zusammen mit einem ehemaligen Arbeitskollegen aus der Promotionszeit entschieden und somit meine aktuelle Stelle selbst geschaffen.
Zum einen kümmere ich darum, neue Kunden zu gewinnen, zum anderen arbeite ich dann neben einem Kollegen auch in den Kundenprojekten. Dort analysiere ich Sensordaten und entwickle Vorhersagemodelle, die dann z.B. in der industriellen oder biotechnologischen Produktion zum Einsatz kommen. Diese Modelle werden dann genutzt, um z.B. vorherzusagen, wann eine Maschine ausfallen wird, oder ob ein Produktionsprozess erfolgreich verlaufen wird. Allgemein benutze ich maschinelles Lernen, um Projekte im Bereich Digitalisierung und Industrie 4.0 umzusetzen.
Die Kundenprojekte bringen immer wieder neue und spannende Herausforderungen mit sich, da es kaum standardisierte Datenformate gibt. Jedes Projekt bringt eine neue Mischung an Daten aus verschiedensten Quellen und individuellen Sensorenzusammenstellungen mit sich. Predictive Analytics ist für viele neu und oft geht es darum, festzustellen, was überhaupt mit den vorhandenen Daten möglich ist. Dadurch sind viele Projekte wie kleine Forschungsprojekte.
Daneben ist es für mich sehr spannend und auch fordernd, zu versuchen, aus einer Idee ein Unternehmen zu entwickeln.
Allgemein sind die Programmierkenntnisse von Vorteil. Ich arbeite sehr viel mit R für eine Erstanalyse. Die daraus entstehenden Erkenntnisse werden dann mit verschiedenen Sprachen in Software umgesetzt, um die Analysen zu automatisieren. Projekte aus dem Biotechnologie-Bereich fordern biologisches Fachwissen. Dieses Wissen habe ich vorrangig im Studium erworben.
Ich denke, für sehr viele Richtungen sind Programmierkenntnisse in mindestens einer Sprache sowie umfangreiche Statisitk-Kenntnisse essenziell. Ein weiterer Punkt ist das Netzwerken: Es wird nie wieder so einfach wie in der Studien- und Promotionszeit.
Weitere Interviews findet ihr hier.
]]>2001 hatten wir zum ersten Mal die komplette Sequenz des menschlichen Genoms vor uns liegen. “Das Humangenom ist entschlüsselt” hieß es damals. Wie unwahr. Wir hatten die einzelnen Zeichen entschlüsselt — ja. Nur lag vor uns ein Text über hundert Bände (zu je tausend Seiten) in einer Sprache, die wir kaum verstanden.
Seit dem haben wir viel gelernt. Heute verstehen wir einen Großteil der grundlegenden Wörter dieser Sprache: die Gene. Stellen wir uns ein Land vor, in dem man “Genomisch” spricht, wir könnten uns vermutlich ganz gut verständigen. Aber sind wir auch “verhandlungssicher”? Würden wir Wortspiele verstehen? Den Subtext einer Aussage? Leider nein. Auf dieser Ebene haben wir noch viel zu lernen…
Die Ebene, von der ich hier rede, ist die sogenannte Genregulation. Ein Gen (also ein Abschnitt der DNA) enthält die Information (den Bauplan) um ein Protein (die Maschine) herzustellen. Um ein Protein herzustellen, wird das entsprechende Gen zuerst abgeschrieben in RNA und dann übersetzt in Aminosäuren, aus denen das Protein zusammengebaut wird. Diesen Prozess nennt man Genexpression. Proteine sind für die chemischen Reaktionen in unserem Körper verantwortlich und somit dafür, dass wir uns bewegen oder essen können. Sie bauen Haut, Bindegewebe, Muskeln und Knochen auf. Aber wer bestimmt eigentlich, welche Maschinen produziert werden sollen und wann welche Maschinen an- oder abgeschaltet werden? Werden ständig alle im Genom kodierten Proteine produziert? Sind in der Leber die gleichen Maschinen tätig, wie im Gehirn? Wer sorgt dafür, dass zum richtigen Zeitpunkt im richtigen Gewebe die richtigen Gene aktiviert werden? Welche Maschinen kann man über Jahre verwenden und welche müssen ständig erneuert werden?
Welcher Bauplan aus dem DNA-Schrank gezogen wird, um ein funktionstüchtiges Protein zu bauen, wird durch verschiedene Mechanismen bestimmt, die man als Genregulation zusammenfasst. Es gibt verschiedenen Ebenen auf denen diese Regulation abläuft. Genauso wie in einem gut funktionierend Unternehmen. In jedem Schritt der Herstellung eines Proteins können regulatorische Faktoren Einfluss nehmen. Ich will jetzt an dieser Stelle gar nicht die Schritte der Genexpression erklären (das meiste müsste ich mir selbst erst wieder anlesen). Stattdessen will ich euch ein kleinen Einblick in die Genomische Sprache geben, euch zeigen, was wir schon gelernt haben, und wie viel wir vermutlich noch lernen müssen.
Sokrates wusste schon, dass man sich seines Wissens nie sicher sein kann. Unsere Ansichten beruhen auf unserem derzeitigen Kenntnisstand. Die Menschheit glaubte einmal daran, dass die Erde eine Scheibe ist. Die Menschheit glaubte auch einmal daran, dass alle Bereiche der DNA, die keinen Bauplan für ein Protein enthalten, Müll sind. Stellt euch das vor, ein Buch, das zu 98 Prozent sinnlos aneinander gereihte Buchstaben enthält und nur zwei Prozent sinnvolle Wörter. Dass man das einmal geglaubt hat, scheint mir heute fast so surreal wie an eine platte Erde zu glauben.
Aber wenn nur zwei Prozent der DNA Baupläne für Proteine sind, wozu ist dann der ganze Rest gut? Nun ja, darin steht zum Beispiel geschrieben, wann und wo welcher Bauplan verwendet werden soll. In der Transkriptomik befassen sich Wissenschaftler damit, welche Abschnitte auf der DNA gerade exprimiert (also gelesen) werden. Das erkennt man daran, welche RNA Stücke gerade in einer Zelle vorliegen. Dabei haben die Wissenschaftler festgestellt, dass über 80 Prozent des menschlichen Genoms gelesen wird. Und dass ungefähr 98 Prozent von dem, was zu einem bestimmten Zeitpunkt gelesen wird, keine Baupläne für Proteine sind. Man nennt diese RNA Stücke nicht-kodierende RNA. “Nicht-kodierend” soll heißen “nicht Protein kodierend”. Diese RNA-Stücke werden also nicht in Proteine übersetzt.
Man weiß heute, dass diese nicht kodierenden RNAs viele Funktionen haben, vom An- un Abschalten einzelner Gene bishin zur Replikation der DNA. Im einzelnen kennt man die ganzen Funktionen aber noch längst nicht. Viele solcher nicht kodierender RNAs sind noch nicht einmal entdeckt wurden. Oder um es anders auszudrücken: Wir sind noch weit davon entfernt, Genomisch verhandlungssicher oder gar wie ein Muttersprachler zu sprechen, weil wir viele Wörter noch gar nicht kennen.
Die Vorstellung von Müll-DNA ist nicht der einzige Irrglaube, dem wir bei der Entschlüsselung des Genoms bisher verfallen sind. Schauen wir uns jetzt mal die Gene an, die wirklich in Proteine übersetzt werden. Dafür werden jeweils drei Nukleotide der RNA (ein sogenanntes Codon) in eine Aminosäure übersetzt. Das Wörterbuch “RNA —> Protein” bezeichnet man als genetischen Code. Von den 43 = 64 möglichen Codons, werden 61 in 20 unterschiedliche Aminosäuren übersetzt; die restlichen drei sind sogenannte Stopcodons, die die Herstellung des Proteins beenden. 61 mögliche Codons und nur 20 Aminosäuren? Ja, es gibt nämlich unterschiedliche Codons, die in die gleiche Aminosäure übersetzt werden. Synonyme könnte man sagen, Wörter mit der selben Bedeutung. Oft unterscheiden sich die Codons für eine Aminosäure nur im letzten Buchstaben. Zum Beispiel wird sowohl CCU, CCG, CCA und CCC in die Aminosäure Prolin übersetzt.
Was bedeutet diese Redundanz im genetischen Code? Wenn zum Beispiel im Prolin Codon an der dritten Stelle eine Mutation auftritt, und ein Nukleotid durch ein anderes ersetzt wird, dann hat das keine Auswirkung — es kommt wieder Prolin dabei heraus. Man spricht von einer stillen Mutation. Wenn solche Mutationen keine Auswirkungen haben, dann sollten die synonymen Codons auch keinem Selektionsdruck unterliegen und somit überall gleichverteilt vorkommen. Also in allen Lebewesen sollten von allen Prolin Codons ungefähr ein Viertel CCU sein, ein Viertel CCG und so weiter. Genau das tun sie aber nicht. Die Verteilung der synonymen Codons ist völlig unregelmäßig. Und dazu noch unterschiedlich zwischen verschiedenen Lebewesen, aber auch innerhalb einzelner Gene.
Die Gründe dafür fängt man erst langsam an zu verstehen. Zum Beispiel spielt die Verteilung eine Rolle dafür, wie schnell ein Protein hergestellt werden kann. Kommt innerhalb eines Gens immer das gleiche Codon für eine bestimmte Aminosäure vor, lässt sich das Protein schneller herstellen. Durch ein eher untypisches Codon lässt sich wiederum eine Pause in der Herstellung des Proteins erzwingen, die eventuell nötig ist, damit sich das Protein richtig faltet. Zwei Proteine, die man gemeinsam für eine bestimmte Aufgabe im Körper benötigt, haben häufig eine ähnliche Verteilung der Codons. Man entdeckt immer mehr regulatorische Prozesse, in denen die Verteilung dieser Codons eine Rolle spielt. Die “stille Mutation” ist also nicht ganz so still, wie man anfangs dachte. Auch hier passt die Analogie zur Sprache wieder schön: synonyme Codons sind Wörter, die auf den ersten Blick das gleiche bedeuten, sich im Subtext aber vielleicht doch unterscheiden.
Das sind nur zwei Beispiele für Irrglauben, die uns zeigen, dass wir unser Wissen immer auch anzweifeln sollten und wir noch viel zu lernen haben. In Bezug auf CRISPR/Cas kann ich eigentlich nur mein Fazit aus dem letzten Beitrag wiederholen: Man sollte bei dieser Technologie vielleicht nicht als erstes daran denken, in unserem Erbgut herumzuschustern und in die menschliche Keimbahn einzugreifen. Stattdessen sollten wir es als Chance wahrnehmen, die Sprache unserer Gene besser verstehen zu lernen.
]]>Wenn bestimmt Körperteile krank sind, und eine Heilung nicht mehr zu erwarten, dann sind Chirurgen oft dazu in der Lage, das Leben des Menschen zu retten, in dem sie das Körperteil entfernen. Wie schön wäre es, wenn wir auch aus unserem Erbgut die Krankheitsursachen herausschneiden könnten. Aber DNA ist winzig, das Skalpell eines Chirurgen nicht klein genug. Noch dazu müssten wir in jeder betroffenen Zelle rumschnippeln. Ein erwachsener Mensch besteht etwa aus 100 Billionen Zellen. Schwierig. Aber seit 2012 gibt es Hoffnung. Das war das Geburtsjahr der Genchirurgie. Doch die Geschichte beginnt mit einem Kampf zwischen zwei anderen Lebensformen: Bakterien vs. Viren.
Auch Bakterien wollen sich gegen Angreifer verteidigen. So wie sich unser Immunsystem gegen Bakterien wehrt, wehren sich Bakterien zum Beispiel gegen Viren. Unser Immunsystem ist dazu in der Lage, sich bestimmte Gegner zu merken, um sie beim nächsten Angriff schneller zu bekämpfen. Antikörper sind sozusagen das militärische Gedächtnis unseres Körpers. Einen ähnlichen Mechanismus hat man auch bei Bakterien entdeckt. Nur sind die Bakterien noch einen Tick schlauer. Sie nutzen als Gedächtnis ihr Erbgut. Der entscheidende Vorteil: Sie vererben die Täterdatei an die nächste Generation weiter.
Die Täterdatei trägt den Namen CRISPR, kurz für Clustered Regularly Interspaced Short Palindromic Repeats. Übersetzen kann man das ungefähr als “gruppierte, regelmäßige, kurze, palindromische Wiederholungen mit Zwischenräumen”. Dabei handelt es sich um einen Abschnitt auf der DNA der Bakterien. So kompliziert der Name auch klingt, er beschreibt den Aufbau dieser Täterdatei ziemlich genau. Die Wiederholungen bilden das Grundgerüst. Es handelt sich dabei um kurze palindromische Sequenzen. In den Zwischenräumen werden die Täter gespeichert: wurde ein Bakterium einmal von einem Virus befallen, speichert es ein Stück von dessen DNA in diese Zwischenräume.
Wird das Bakterium (oder einer seiner Nachkommen), wieder von diesem Virus angegriffen, kann es nun ruckzuck reagieren. Die ausführende Gewalt (also die Exekutive), nennt sich Cas9. Cas9 ist ein Enzym, das DNA zerschneiden kann — ein DNA-Skalpell, könnte man sagen. Cas9 kann mit Hilfe der Information aus der Täterdatei das Virus identifizieren. Es bindet genau an die DNA-Sequenz, die in der Täterdatei gespeichert war und zerschneidet das Virus an dieser Stelle.
Bakterien haben also ein tolles Immunsystem. Schön und gut. Und was nützt uns das? Es gibt ein biologisches Skalpell, mit dem man DNA schneiden kann. Und diesem Skalpell kann man noch dazu eine genau Ortsangabe mitgeben, an welcher Stelle es die DNA zerschneiden soll. Können wir uns dieses Skalpell zu Nutze machen, öffnet sich ein Tor in eine ganz neue Welt der Medizin: die Genchirurgie. Und den Schlüssel für dieses Tor hat sie gefunden: Emmanuelle Charpentier. 2012 stellte sie zusammen mit ihrer Kollegin Jennifer Doudna ein neues biochtechnologisches Verfahren, basierend auf CRISPR/Cas9, vor. Sie konstruierten ein künstliches Cas9-Skalpell, dem man (genau wie im bakteriellen Immunsystem), die Ortsangabe zum Zerschneiden mitgeben kann. Und damit schufen sie die Möglichkeit, Präzisionsoperationen in unserem Erbgut durchzuführen. Die beiden Wissenschaftlerinnen wurden dafür mit zahlreichen Preisen ausgezeichnet und landeten 2015 auf der Liste der “100 einflussreichsten Persönlichkeiten” des Time Magazines.
Jeder Fortschritt in der Medizin bringt Hoffnung. Das Genskalpell bringt Hoffnung für Millionen von Patienten mit den unterschiedlichsten Krankheitsbildern. Insbesondere für die Behandlung von Erbkrankheiten. Erbkrankheiten beruhen auf Fehlern in unserem Erbgut. Oft ist dabei nur ein einziges Gen betroffen und die meisten der Krankheiten sind selten. Je seltener die Krankheit, desto geringer der Forschungsaufwand, desto geringer die Chance auf Heilung. Nimmt man all diese “monogenetischen Erkrankung” zusammen, kann man aber nicht mehr von Einzelfällen reden. Die Weltgesundheitsorganisation schätzt, dass Millionen von Menschen von solchen Erkrankungen betroffen sind. Dazu zählen zum Beispiel Mukoviszidose oder Muskeldystrophien.
Und nun haben wir plötzlich die Möglichkeit, unser Genom zielsicher zu verändern. Zu heilen. Und das auch noch kostengünstig und verhältnismäßig einfach. Noch reden wir hier nicht von klinischer Anwendbarkeit. Gewisse Hindernisse gibt es noch zu überwinden. Zum Beispiel bleibt das eingangs erwähnte Problem, dass wir in jeder betroffenen Zelle rumschnippeln müssen. Wie transportieren wir das Skalpell in die betroffenen Zellen? Und das zielsicher? Ein weiteres Problem sind sogenannte Off-target-Effekte. Die Ortsangabe zum Zerschneiden der DNA muss so genau sein, dass nicht versehentlich auch an einem anderen als dem gewünschten Ort geschnitten wird.
Nicht nur für seltene Erbkrankheiten gibt es Hoffnung, sondern auch für zwei der großen Geiseln der Menschheit: Krebs und AIDS. Mit dem HI-Virus, dem Verursacher der Immunschwächekrankheit AIDS, leben derzeit weltweit etwa 37 Millionen Menschen. Das Virus befällt Immunzellen und baut dort sein eigenes Erbgut in die menschliche DNA ein. Bisher gibt es keine Methode, um das HI-Virus wieder aus dem Körper zu entfernen. Derzeitige Medikamente helfen nur, die Vermehrung des Virus zu unterdrücken. Das neue Skalpell bringt Hoffnung. Die Idee dabei ist, Immunzellen außerhalb des Körpers zu behandeln und wieder in den Körper zu injizieren. Ähnlich will man auch gegen Krebs vorgehen.
Die Geschichte des Genskalpells hat viele Facetten. Es ist auch die Geschichte einer leidenschaftlichen Wissenschaftlerin. Emmanuelle Charpentier arbeitete in neun verschiedenen Arbeitsgruppen in fünf verschiedenen Ländern bis sie durch ihre erfolgversprechende Entdeckung mittlerweile am Max-Planck-Institut für Infektionsbiologie in Berlin gelandet ist. Charpentier ist kein Öffentlichkeitsmensch, sie will den ganzen Medienrummel nicht, sondern sich lieber ihrer Forschung widmen. Sie hat aber auch erkannt, dass man die Öffentlichkeit über die Bedeutung von CRISPR/Cas9 aufklären muss. Wie die Genschere funktioniert, und welche Möglichkeiten sie bietet. Und sie nutzt die “Entdeckung” von CRISPR/Cas9 um darauf hinzuweisen, wie wichtig Grundlagenforschung ist. Den Grundlagenforschung hat es oft schwer, sich selbst zu rechtfertigen. Die Ziele und Errungenschaften zeigen oft keinen direkten Nutzen für unsere Gesellschaft: keinen Profit für unsere Wirtschaft, keine Heilung tödlicher Krankheiten. Grundlagenforschung wird häufig von purer Neugier angetrieben, dem Wunsch, unsere Welt besser zu verstehen. Aber genau dort liegt eben auch aller Anfang, der Anfang für die großen Veränderungen, die die Forschung mit sich gebracht hat und das sollten wir immer im Auge behalten. Ich sage das so deutlich, weil es immer schwerer wird, sich als Wissenschaftler für seine Forschung zu rechtfertigen. Sowohl wenn es um die Beantragung von Forschungsgeldern geht, als auch um die Veröffentlichung der Erkenntnisse. Wem nützt das? Das weiß oft keiner so genau. Zu oft wird man abgelehnt mit der Begründung “nicht relevant genug”. Und oft stellt sich mir die Frage, könnt ihr euch da so sicher sein? Denn auch der Weg zur Entwicklung des Genskalpells war ein langer. Voller Mauern auf denen geschrieben stand “Eure Arbeit ist nicht relevant genug”. Denn keiner konnte absehen, dass die Forschung an einem “langweiligen” Bakterium, über das es nicht mal einen Wikipedia Artikel gibt (Haloferax mediterranei), in der Entwicklung des Genskalpells münden würde? Zwanzig Jahre lang haben sich nur wenige Spezialisten für diese Forschung interessiert. Heute redet jeder darüber.
Die Entwicklung des Genskalpells erzählt noch weitere Geschichten: Die Unterschiede zwischen Amerika und Europa zum Beispiel. Aber das ist ein Fass, das ich jetzt nicht öffnen möchte. Widmen wir uns lieber der Frage:
Die Anwendungen des Genskalpells in der Medizin sind nur ein Bruchteil der Möglichkeiten, die uns diese neue Welt eröffnet. Nicht nur unsere eigene DNA können wir damit verändern, sondern auch die DNA anderer Lebewesen. Die DNA von Nutzpflanzen könnte so verändert werden, dass sie Schädlingen widerstehen. Der Einsatz von Pestiziden würde sich erübrigen. Man könnte das Erbgut von krankheitsübertragenden Insekten so verändern, dass sie kein Zwischenwirt mehr sind. So könnte man zum Beispiel die Ausbreitung von Malaria stoppen. Man könnte sogar soweit gehen, die Insekten unfruchtbar zu machen, sodass sie aussterben. Gleiches gilt für andere Insekten (ich persönlich mag ja Wespen und Mücken eher nicht so). Oder noch verrückter: Forscher wollen Mammut DNA in Elefantenzellen einschleusen und die vor 4000 Jahren ausgestorbene Art wieder auferstehen lassen.
Und mit all diesen Möglichkeiten stellt sich die große Frage: Wieviel Macht dürfen wir uns selbst geben, in die Evolution einzugreifen? Können wir überhaupt absehen, was es für unser Ökosystem bedeutet, wenn eine Art verschwindet? Oder eine Art wieder aufersteht? Ich sag nur: Jurassic Park. Eingriffe in die menschliche Keimbahn sind bislang verboten. Damit würden wir auch das Erbgut unserer eigenen Nachkommen verändern. Dürfen wir unsere eigene Evolution in die Hand nehmen? Diese Fragen beschäftigten vor kurzem auch den deutschen Ethikrat. Vorerst bleibt Genchirurgie am Embryo verboten. Im Moment sehen die Experten eher Gefahr in der zu frühen Anwendung des Genskalpells in der Medizin. Noch ist die Methode längst nicht reif.
Natürlich birgt wissenschaftlicher Fortschritt immer auch Gefahren. Den Fortschritt aufzuhalten scheint mir jedoch keine sinnvolle Alternative. Unsere Aufgabe sollte es sein, zu lernen mit dem Fortschritt richtig umzugehen. Je besser wir etwas verstehen, desto besser können wir auch die damit verbundenen Gefahren einschätzen. Harald Lesch hat das einmal sehr schön zum Thema Atomkraft zusammengefasst: “Vielleicht sind wir einfach noch nicht reif für diese Technologie”. Um in unsere eigene Evolution einzugreifen, sind wir sicher noch nicht reif genug. Besonders nicht was unsere Soziale Intelligenz betrifft. Aber gleichzeitig gibt uns CRISPR/Cas9 so viel Hoffnung in Medizin und Biologie, dass es dumm ist, nur die dunkle Seite der Medaille zu betrachten. Und letztlich ist CRISPR/Cas9 vor allem das, wofür es von seiner Erfinderin (einer Mikrobiologin) anfangs gedacht war: eine biotechnologische Methode, mit der man Gene ein- und ausschalten kann. Sie soll den Biologen die Forschung erleichtern und helfen Krankheiten zu enträtseln. Den Nobelpreis hat Emmanuelle Charpentier übrigens noch nicht gewonnen, obwohl sie letztes Jahr als heiße Kandidatin gehandelt wurde. Ob es dieses Jahr klappt, erfahren wir Anfang Oktober.
Und ihr? Seht ihr das Genskalpell als Horror oder als Hoffnung?
]]>Die Prozessoren in unseren Rechnern werden alle paar Jahre halb so groß, halb so teuer und doppelt so schnell. Beobachtet hat das 1965 schon einer der Gründer der Firma Intel: Gordon Moore sagte voraus, dass sich die Anzahl der Transistoren auf einem Mikroprozessor knapp alle zwei Jahre verdoppelt. Aber diese Verdopplung hat ihre Grenzen. Und diese Grenzen liegen in der Physik. Die heutigen Leiterbahnen aus Silizium sind nur noch ein paar Atome breit. Derzeit fertigt Intel Prozessoren mit 14 Nanometer breiten Leiterbahnen. Bei 2 bis 3 Nanometern ist endgültig Schluss. Kleinere Halbleiter würden nicht mehr genügend bewegliche elektrische Ladungen besitzen um zu funktionieren. Davon abgesehen würden sich die Herstellungskosten für solche winzigen Halbleiter nicht mehr rechnen.
Sind wir damit an die Grenzen der Rechentechnik gestoßen? Sicher nicht. Wir müssen die Silizium-Straße verlassen und nach neuen Wegen suchen. Das können neue Materialien sein, oder aber völlig neue Konzepte. Richard Feynman — einer der großen Physiker des 20. Jahrhunderts — hatte schon 1959 die Idee, Rechenprozesse auf der Ebene von Molekülen und Teilchen durchzuführen. Und heute wird genau auf diesen Ebenen der Rechentechnik geforscht: die Rede ist von DNA-Computern und Quantencomputern (von letzteren habe ich keine Ahnung, da müsst ihr euch an die Physiker wenden).
Die Idee einen Computer auf Grundlage von DNA-Molekülen zu bauen stammt von Leonard Adleman. Adleman ist (nebenbei bemerkt) auch einer der drei Erfinder des RSA-Kryptosystems. 1994 veröffentlichte er in Science eine Lösung für das Hamiltonpfad-Problem durch einen DNA-Computer. An diesem Beispiel kann man recht deutlich sehen, wie Problemstellungen auf DNA Ebene modelliert werden können. Das Hamiltonpfad-Problem ist auch als Problem des Handlungsreisenden bekannt. Das Problem ist ein Klassiker der theoretischen Informatik. Bildlich gesprochen betrachten wir ein Netzwerk von Städten und suchen nach einer Route, die jede Stadt genau einmal besucht. Informatisch gesprochen betrachten wir einen Graphen und wollen jeden Knoten genau einmal besuchen. Genau genommen modellierte Adleman den DNA-Computer für ein gerichtetes Netzwerk (Einbahnstraßen) aus sieben Städten, inklusive einer Startstadt und einer Zielstadt. Er nannte ihn TT-100 — ein Reagenzglas (TestTube) mit 100 Mikrolitern DNA-Lösung.
Für jede Stadt und für jede Straße gibt es einen DNA-Strang. Jeder Strang ist zwanzig Nukleotide lang. Die Reihenfolge der Nukleotide in einem Stadt-Strang wird zufällig generiert. Ein Straßen-Strang setzt sich aus jeweils der Hälfte der beiden Stadt-Stränge zusammen. DNA liegt normalerweise als Doppelstrang vor. Die Nukleotide A und T und die Nukleotide C und G können Bindungen ausbilden. Der zweite Strang muss also das Gegenstück zum ersten Strang bilden. Diese Eigenschaft können wir nun ausnutzen, um eine Route zwischen den Städten zu erzeugen. In unser Reagenzglas schütten wir nicht die eigentlichen Stadt-Stränge, sondern deren Gegenstücke. Dann geben wir die Straßen-Stränge dazu. Natürlich geben wir nicht für jeden Strang genau ein Molekül in die Mischung, sondern extrem viele. Die Moleküle werden im Reagenzglas gemischt. Es bilden sich verschiedene Ketten, jede Kette ist eine mögliche Route im Netzwerk und somit eine mögliche Antwort. Wie finden wir heraus, welche Route die richtige ist, also durch alle sieben Städte genau einmal verläuft?
Zuerst entfernen wir alle Ketten, die nicht in der richtigen Stadt beginnen oder enden. Dann werden die Ketten nach Länge sortiert und nur die 140 Nukleotid-langen (= sieben Städte) werden behalten. Dann wird überprüft, ob jeder Stadt-Strang in der Kette vorkommt. Für jeden der drei Überprüfungsschritte gibt es gängige Verfahren im Labor; trotzdem ist das Auslesen der Lösung langwierig, kompliziert und erfordert viel Handarbeit — verglichen mit der Ausgabe der uns bekannten Rechentechnik.
Nicht nur das Auslesen der Lösung ist schwierig, auch die biochemischen Reaktionen gehen (verglichen mit unseren heutigen Rechnern) nur sehr langsam vonstatten: die Reaktionszeit der DNA wird in Sekunden, Stunden oder sogar Tagen gemessen. Welchen Vorteil bringt dann das Rechnen mit DNA-Molekülen? Winzigkeit. Und mit der Winzigkeit kommt ein zweiter Vorteil: Parallelisierung. In einem Tropfen Wasser können Trillionen von DNA-Stränge enthalten sein. Auf den uns bekannten Rechnern werden Rechenoperationen nacheinander ausgeführt. DNA-Computer hingegen können alle Lösungsmöglichkeiten gleichzeitig erzeugen und auf nicht-deterministische Weise arbeiten.
Aber trotz der enormen Parallelisierung, stoßen DNA-Computer bei den richtig schwierigen Problemen der Informatik auch an ihre Grenzen. Bei diesen Problemen wächst die Anzahl der möglichen Lösungen exponentiell mit der Größe des Problems. Zu diesen Problemen gehört auch das von Adleman untersuchte Problem. Man braucht schon für mittelgroße Städtenetzwerke Badewannen statt Reagenzgläser. Würde man einen solchen DNA-Computer für ein Netzwerk aus zweihundert Städten bauen wollen, bräuchte man bereits eine Menge an DNA, die die Masse der Erde übersteigt.
Das Experiment von Adleman war eher eine Machbarkeitsstudie, um zu zeigen, dass Rechnen mit DNA möglich ist. Und das Tor in ein breites Forschungsfeld. Ein Forschungsbereich ist zum Beispiel die Umsetzung von Logikgattern durch DNA. Logikgatter dienen dazu, Eingangssignale durch logische Operatoren zu Ausgangssignalen umzuwandeln. Im Rechner basieren diese Logikgatter auf der Binärkodierung. DNA-basierte Logikschaltungen verwandeln DNA-Fragmente durch chemische Operationen in Ausgangssignale. Das logische UND kann zum Beispiel durch die Verbindung zweier Fragmente nachgebildet werden.
Bisher stoßen wir bei DNA-Computern noch auf viele Probleme und eine saubere experimentelle Durchführung ist schwierig und zeitaufwändig. Stellt sich die Frage: Wozu DNA Computer? Adleman selbst hält es für unwahrscheinlich, dass DNA-Computer direkte Konkurrenten für elektronische Rechner werden. Bisher hat man noch kein Weg aus dem Reagenzglas zum Desktop-PC gefunden. Aber das ist vielleicht auch gar nicht das Ziel. Es werden immer wieder neue Möglichkeiten und Anwendungsbereiche rund ums DNA-Computing entdeckt — vom DNA-Speicher bishin zur Nanotechnologie. DNA-Computer könnten zum Beispiel in der Medizin ihren Nutzen finden, sind sie doch klein genug, um in Zellen zu arbeiten. Auch eine Verbindung aus traditionellen Silizium-Prozessoren und DNA-Co-Prozessoren für bestimmte Aufgaben wäre denkbar.
Wer wirklich auf den aktuellsten Stand der Dinge in diesem Forschungsbereich kommen will, kann Anfang September nach München zur “22nd International Conference on DNA Computing and Molecular Programming” fahren. Dann möchte ich aber bitte eine Berichterstattung!
Molecular computation of solutions to combinatorial problems.
Adleman LM.
Science, 266(5187):1021-4, 1994.
Allerdings brauchen wir auch hierfür wieder ein wenig Theorie. Das Teilgebiet der (theoretischen) Informatik, das sich mit der Schwere von Problemen beschäftigt, heißt Komplexitätstheorie. In diesem Forschungsgebiet werden Probleme in Komplexitätsklassen eingeordnet. Jedes (neue) berechenbare Problem wird in eine Schublade sortiert, je nach dem wie schwierig es ist. Diese Klassifizierung funktioniert leider nicht automatisch wie beim Machine Learning, sondern durch Beweise.
Dabei ist die wichtigste Frage: Wie viel Zeit braucht ein Rechner, um ein Problem zu lösen? Die Zeit messen wir nicht in Sekunden oder Minuten, sondern als Anzahl der maximal notwendigen Rechenschritte, die wir benötigen, um das Problem zu lösen. Und das in Abhängigkeit von der Größe der Eingabe. Willst du die Summe aus zehn Zahlen berechnen brauchst du ja auch länger, als für die Summe aus zwei Zahlen. Die Schwierigkeit des Problems ist unabhängig von dem Computer, auf dem es gelöst werden soll. Die als “schwer” bezeichneten Probleme sind auch für die jeweils nachkommende, schnellere Rechnergeneration noch schwer.
Die zwei bekanntesten Schubladen sind wohl P und NP. Genau genommen ist P eine Schublade innerhalb der Klasse NP. Die Klasse NP besteht eigentlich aus drei Schubladen: wir nennen sie P, NP und NPC. Was hat es mit diesen Schubladen auf sich?
In dieser Schublade liegen alle Probleme, die man in Polynomialzeit (=P) lösen kann. Polynomialzeit bedeutet nk, wobei n die Größe der Eingabe ist und k eine feste Konstante. Polynomialzeit ist also zum Beispiel lineare Zeit: um fünf Zahlen zu addieren brauchen wir fünf Rechenschritte — die Laufzeit ist also gleich der Eingabegröße. Auch wenn sie dreimal oder hundert mal so groß wäre, ist das noch immer lineare Zeit. Auch quadratische oder kubische Zeit ist polynomiell.
Formal definiert sind in der Schublade P alle Probleme, für die eine deterministische Turingmaschine existiert, die das Problem in Polynomialzeit löst. Deterministisch bedeutet, dass bei gleicher Eingabe immer genau die gleichen Rechenschritte (Zustände der Turingmaschine) ablaufen und immer genau das gleiche Ergebnis raus kommt. Zu jedem Zeitpunkt ist der nächste Schritt des Algorithmus eindeutig festgelegt.
Alle Probleme, die in der Schublade P liegen, sind für Informatiker einfach zu lösende Probleme. Und damit für die theoretischen Informatiker eher langweilig…
Die Klasse NP besteht aus drei Schubladen: wir nennen sie P, NP und NPC. NP steht für “nichtdeterministische Polynomialzeit”. Zu dieser Klasse gehören alle Probleme, die man mit einer nichtdeterministischen Turingmaschine in Polynomialzeit lösen kann. Nichtdeterministisch bedeutet, dass die Maschine zu jedem Zeitpunkt potentiell mehrere Möglichkeiten hat, ihre Berechnung fortzusetzen. Anders als bei einer deterministischen Turingmaschine gibt es also keinen eindeutigen Rechenweg. Alle Probleme, die man mit einer deterministischen Turingmaschine lösen kann, lassen sich aber auch von einer nichtdeterministischen Turingmaschine lösen. Die Schublade P gehört also zur Klasse NP.
Nichtdeterministische Turingmaschinen sind nur ein theoretisches Modell. Unsere Computer funktionieren leider nicht auf diese Weise. Die Frage ist: kann man diese Probleme auch mit unseren (deterministischen) Computern in Polynomialzeit lösen? Zumindest kann man sie in Polynomialzeit verifizieren. Soll heißen: der Rechner kann für eine vorgeschlagene Lösung in Polynomialzeit entscheiden, ob sie stimmt. Ihr könnt euch das ähnlich vorstellen, wie bei einem Rätsel. Häufig ist es schwierig, auf die Lösung des Rätsels zu kommen. Wenn euch aber jemand die Lösung verrät, könnt ihr sie vermutlich ganz schnell nachvollziehen.
Bevor wir uns die beiden anderen Schubladen der Klasse NP angucken, brauchen wir noch eine andere Klasse, sie nennt sich NP-schwer. Aha “schwer” — denkt ihr euch vermutlich. Endlich geht’s zur Sache. Ein Problem (nennen wir es donald) ist NP-schwer, wenn es mindestens so schwer wie jedes andere Problem in NP ist. Alle Probleme, die in der Klasse NP liegen, müssen sich in polynomieller Zeit auf das Problem donald zurückführen lassen. Das heißt, man kann alle Probleme in NP in polynomieller Zeit so umformulieren, dass die Lösung des Problems donald auch all die anderen Probleme löst.
Zurück zu unseren Schubladen. Die Schublade NPC steht für NP-vollständig (engl.: NP-complete). In diese Schublade wandert ein Problem, wenn es sowohl zur Klasse NP gehört (also mit einer nichtdeterministischen Turingmaschine in Polynomialzeit lösbar ist), als auch NP-schwer ist. Für die Probleme in dieser Schublade, hat bis heute noch niemand einen Polynomialzeitalgorithmus für unsere (deterministischen) Rechner gefunden. Bisher sind zum exakten Lösen von NP-vollständigen Problemen nur Exponentialzeitalgorithmen bekannt. Exponentialzeit bedeutet kn, das heißt, die Größe der Eingabe wirkt sich exponentiell auf die Laufzeit aus. Und das wiederum bedeutet, dass die echte Laufzeit ganz schnell auf Milliarden von Jahren anwächst. Da nützt es uns auch nix, wenn wir auf die nächste (doppelt so schnelle) Rechnergeneration warten, um das Problem zu lösen.
Manchmal ähneln sich Probleme auf den ersten Blick sehr, wandern dann aber doch in zwei unterschiedliche Schubladen. So zum Beispiel bei der Suche nach dem Eulerkreis und dem Hamiltonkreis. Ein Graph ist in der Informatik ein Gebilde aus Knoten und Kanten. Das Haus vom Nikolaus zum Beispiel ist ein Graph, wobei jede Ecke ein Knoten ist. Ein Eulerkreis läuft durch jede Kante genau einmal (darf aber einen Knoten mehrmals passieren). Ein Hamiltonkreis verläuft durch jeden Knoten genau einmal (muss aber nicht jede Kante passieren). Klingt erstmal sehr ähnlich. Zu erkennen ob es einen solchen Kreis gibt, ist aber für das eine Problem einfach, für das andere nicht. Einen Eulerkreis gibt es genau dann, wenn der Graph zusammenhängend ist und jeder Knoten eine gerade Anzahl an Kanten besitzt. Das Eulerkreisproblem liegt in der Schublade P. Für den Hamiltonkreis gibt es solch eine einfache Überprüfung nicht, es liegt in der Schublade NPC.
Für die Probleme in NPC hat also noch keiner einen Polynomialzeitalgorithmus gefunden. ABER: es konnte auch noch keiner beweisen, dass es kein Polynomialzeitalgorithmus dafür geben kann. Brauchen wir wirklich die drei einzelnen Schubladen P, NP und NPC? Oder ist P = NP und wir können alles in eine Schublade schmeißen? Oder anders gefragt: wenn man ganz leicht überprüfen kann, ob eine Lösung richtig ist, kann man die Lösung dann auch einfach finden? Bekannt ist diese Fragestellung schon seit den 70ern und sie ist eine der wichtigsten Fragestellungen der Informatik. So wichtig, dass sie in der Liste der Millennium-Probleme steht, für deren Lösung man mal eben eine Million US-Dollar abstauben kann.
Die Frage könnte man auch anders formulieren: Sind wir einfach nur zu dumm, bessere Algorithmen zu finden? Würden wir nur für ein einziges der Probleme in NPC einen Polynomialzeitalgorithmus finden, könnte wir jedes Problem aus der Klasse NP in Polynomialzeit lösen (denn wir haben ja gelernt, dass sich alle Probleme, die in der Klasse NP liegen, in polynomieller Zeit auf donald zurückführen lassen). Die NPC-Schublade ist mittlerweile aber schon ziemlich voll. Und nicht für eines dieser Probleme ist es gelungen, einen solchen Algorithmus zu entwerfen. Und da der Mensch im allgemeinen und der Informatiker im speziellen sich nicht gerne für dumm hält, vermutet der Großteil der Fachwelt, dass P≠NP gilt.
Es gab und gibt natürlich schon einige Versuche, P=NP oder P≠NP zu beweisen. Allein 2016 vier für P≠NP und einen für P=NP. Hier gibt es eine Liste der verschiedenen Beweisführungen. Keine davon ist jedoch bestätigt und die eine Millionen US-Dollar stehen immer noch zum Abstauben bereit.
Vielleicht ist euch aufgefallen, dass ich bisher von keinem Problem gesprochen habe, das in der NP-Schublade liegt. Ist diese Schublade leer? Bisher schon. Denn wir kennen (noch?) keine Probleme, die in dieser Schublade liegen. Bis auf eine Ausnahme: Ein künstliches Problem ohne praktische Relevanz. Wozu? Dieses Problem hat sich 1975 Richard Ladner ausgedacht, um eben diese Frage zu beantworten, ob die NP-Schublade leer ist. Er hat also ein Problem entworfen, das weder in die P, noch in die NPC Schublade gehört, aber eben trotzdem zur Klasse NP. Natürlich nur, wenn P≠NP (sonst schütten wir ja eh alle drei Schubladen zusammen). Es gibt aber auch in der Praxis ein paar Probleme, von denen man vermutet, dass sie in dieser Schublade liegen. Zum Beispiel die Primfaktorzerlegung: die Darstellung einer natürlichen Zahl als Produkt aus Primzahlen. Interessant ist das vor allem für Verschlüsselungsverfahren in der Kryptographie.
Natürlich nützt es nix zu sagen “Joa, das Problem ist schwer, da können wir jetzt leider nix machen”. So denkt ein Informatiker nicht. Stattdessen müssen wir uns eben ein Paar Tricks und Kniffe einfallen lassen — aber von denen berichte ich euch ein anderes Mal.
Beitrag auf BioinfoWelten lesen.
]]>
Hinweis: Dieser Beitrag wurde NICHT gesponsert. Dieser Beitrag ist ein persönliches Interview.
Noch speichern wir unsere Daten hauptsächlich auf magnetischen und optischen Speichermedien. Auf einer Diskette konnte man damals bis zu 3,25 Megabyte speichern. Auf einer DVD etwa 9,4 Gigabyte. USB Sticks kann man mittlerweile schon in Terabyte Größe kaufen. Magnetische Speicher fassen derzeit bis zu 185 Terabyte, optische bis zu 1 Petabyte. Der uns verfügbare Speicher wächst und wächst. Nur leider langsamer, als die Masse an digitalen Daten. Eine Studie der EMC Corporation (ein US-amerikanischer Speicherhersteller) sagt voraus, dass schon in 4 Jahren die verfügbare Speichermenge nur noch für 15 Prozent aller Daten reicht.
Die meisten Daten sind jedoch flüchtig, müssen also gar nicht dauerhaft gespeichert werden. Aber was ist mit den riesigen Mengen an Daten, die zum Beispiel in den Naturwissenschaften anfallen. Wir befinden uns im Zeitalter der Hochdurchsatztechnologien. Jeden Tag werden in Biologie, Chemie, Physik riesige Datenmengen gemessen. Datenmengen, die Informationen enthalten, die sich im Moment vielleicht noch gar nicht sinnvoll auswerten lassen. Was tun? Verwerfen, weil der Speicher knapp wird? Oder vorerst sichern und in 50 Jahren wieder rauskramen? Aber da sind wir schon beim nächsten Problem: unsere Datenspeicher sind nicht für die Ewigkeit gemacht. DVDs halten etwa 10 Jahre. Flash-Speicher etwa 30 Jahre (natürlich abhängig von der Anzahl der Schreibvorgänge). Und noch ein Problem: wer von euch kann heute noch eine Diskette lesen? Ich selbst habe nicht einmal mehr die nötige Hardware um eine CD oder DVD abzuspielen. Müssen wir unsere Daten also ständig auf neuere Speichermedien übertragen?
Wohin also mit all den Informationen und dem ganzen Wissen, das die Menschheit über die Jahrhunderte angesammelt hat? Zur der geringen Lebenszeit unserer heutigen Speichermedien, kommt noch deren erhebliche Größe. Und damit meine ich nicht die Speichergröße sondern die echte räumliche Größe. Man braucht heute etwa einen Kubikmillimeter, um hundert Gigabyte zu speichern. Bis 2020 soll das weltweite Datenvolumen auf 44 Billionen Gigabyte (44 Zettabyte) wachsen, das sind etwa 440.000 Liter Speicherplatz. Viel besser wäre es doch, wenn wir dafür nur 44 Milliliter brauchen würden. Gesucht wird also ein Speichermedium, auf das ein Exabyte Information pro Kubikmillimeter passt (man spricht hier von Informationsdichte). Gibt es das? Ja! Und ihr werdet sicher nicht überrascht sein, dass es sich dabei um DNA handelt.
Schon 1988 hatten die ersten Wissenschaftler die Idee, eine Botschaft auf DNA zu speichern. Und seither haben Wissenschaftler immer mal wieder damit experimentiert, DNA als Speichermedium zu nutzen. Interessant ist DNA vorallem für die Langzeitspeicherung von Daten, oder sagen wir, für die Archivierung des Wissens der Menschheit. Welche Vorteile bietet DNA gegenüber anderen Speichermedien?
Die Informationsdichte von DNA übertrifft die Informationsdichte gegenwärtiger Speichermedien um Längen. Wie oben schon erwähnt passt etwa ein Exabyte Information auf einen Kubikmillimeter DNA. Oder in Gramm ausgedrückt, passen auf ein Gramm DNA die Daten von etwa einer Millionen CDs.
Auch die Lebensdauer von DNA übertrifft die Lebensdauer gegenwärtiger Speichermedien um Längen. Selbst unter ungünstigen Bedingungen hält sich DNA über Jahrhunderte. In einer kalten, trockenen, dunklen Umgebung lässt sie sich ohne nennenswerten Aufwand sogar über Jahrtausende bewahren. Zum Beispiel konnte DNA des vor zehntausend Jahren ausgestorbenen Mammuts 2008 sequenziert werden.
DNA ist die Grundlage allen Lebens. Das Lesen und Schreiben von DNA ist durch unser Interesse am Erbgut aller Lebewesen möglich geworden. Noch immer gilt es unzählige biologische Fragestellungen mittels DNA-Analyse zu klären, was den Fortschritt dieser Technologien weiter rasant voran treibt. Das Speichermedium an sich — die DNA — wird aber auch in tausenden von Jahren noch das selbe sein. Und auch den Menschen der Zukunft wird es noch möglich sein, DNA zu lesen.
Die Bioinformatiker Ewan Birney und Nick Goldman beschrieben 2013 eine robuste Methode um Daten auf DNA zu speichern. Ihr DNA-Speicher enthielt 739 Kilobyte Information: sämtliche 154 Sonette von Shakespeare als ASCII Text, ein JPEG Foto des Baums vor dem Europäischen Bioinformatik-Institut in Cambridge, die Publikation von Watson und Crick von 1953 über die Struktur von DNA als PDF, einen MP3-Auszug aus der berühmten Rede “I have a dream” von Martin Luther King, und die Kodierungsanleitung um binäre Daten in DNA-Sequenzen umzuwandeln als ASCII Text. Diese fünf Dateien speicherten sie in zehnmillionenfacher Kopie auf ein Krümelchen DNA, kleiner als ein Sandkorn.
Ein digitales Foto ist letztlich (wie jede andere Datei am Computer), eine Sequenz aus Nullen und Einsen (Binärsequenz). Um eine Datei auf DNA zu speichern muss man sie zunächst von der Binärkodierung in den Code der DNA übersetzen. Der Schreibprozess ist anders als bei heutigen Speichermedien; entspricht eher einem Herstellungsprozess, die sogenannte DNA-Synthese. Das Lesen der DNA-Sequenz bezeichnet man als Sequenzierung. Synthese und Sequenzierung sind gängige biotechnologische Methoden.
DNA besteht aus vier Nukleotiden, die wir als A, C, G und T abkürzen. Binärcode in Quartärcode umzuwandeln ist recht einfach, da die Zahl 4 selbst eine Zweierpotenz ist. Nehmen wir die Anzahl der Likes auf der BioinfoWelten Facebookseite: 105. Im Binärsystem (als ein Byte) dargestellt ist das 01101001, im Quartärsystem 1221. Und für A=0, C=1, G=2 und T=3 erhalten wir die DNA-Sequenz CGGC.
Derzeitige Sequenziermethoden haben aber insbesondere eine Schwäche: wenn gleiche Buchstaben aufeinander folgen, wird das Lesen der DNA ungenau. Ähnlich wenn ihr eine Zahl mit vielen Nullen lesen sollt und der Tausender-Separator fehlt. Um das zu vermeiden, haben sich Birney und Goldman einen Trick überlegt. Statt ins Quartärsystem übersetzt man ins Ternärsystem und benötigt somit nur drei DNA-Buchstaben. Habe ich gerade ein A geschrieben, dann kann ich die Werte 0, 1, 2 den verbleibenden Nukleotiden C, G, T zuordnen und verhindere somit, zwei As hintereinander zu schreiben.
Eine Datei wird nicht als kompletter DNA-Strang gespeichert. Auch hier gebieten die Sequenziermethoden wieder Einhalt, denn sie können nur etwa 500 Nukleotide-lange Sequenzen lesen. Also wird die Datei zerstückelt gespeichert in 117 Nukleotid-langen Sequenzen: 100 Nukleotide enthalten die eigentliche Datensequenz, 17 Nukleotide dienen als Schlüssel, um die Dateien wieder zusammenordnen zu können. Die DNA wird dabei so zerstückelt, dass sich jeweils vier Fragmente in 25 Nukleotiden überlappen — ein weiterer Trick um die Daten am Ende möglichst fehlerfrei lesen zu können. Dann geht es ins Labor zur DNA-Synthese-Maschine, die jedes Fragment in millionenfacher Kopie herstellt — sicher ist sicher.
Dass DNA der Speicher der Zukunft seien könnte, hat auch Microsoft bereits erkannt. Anfang des Jahres präsentierten die Forscher eine Verbesserung der Methode von Birney und Goldman. Musste man vorher zum Beispiel den kompletten DNA-Speicher Auslesen, um an eine einzelne Datei zu kommen, ist es mit der neuen Methode möglich, gezielt auf einzelne Dateien zuzugreifen und damit erhebliche Kosten und Zeit zu sparen.
Auch die Redundanz der Daten ist etwas eleganter gelöst. Statt vierfacher Überlappung der Fragmente nutzen die Forscher die XOR-Verknüpfung: Aus zwei Strängen mit unterschiedlichen Daten wird ein dritter Strang erzeugt. Der dritte Strang bekommt die Adressen beider Ausgangsstränge. Geht nun einer der beiden Stränge verloren, kann er aus dem anderen Strang und dem XOR-Strang rekonstruiert werden. Besonders wichtige Dateien (oder Bruchstücke von Dateien wie zum Beispiel den Header) kann man mehrmals verknüpfen und somit besonders sicher speichern.
Wen hab ich jetzt noch nicht davon überzeugt, dass DNA ein super Speichermedium ist? Höre ich Kritik? Ok, ok, ganz so einfach ist es natürlich in der Realität noch nicht. Da sind zum einen die Kosten: sowohl das Herstellen von DNA als auch das Lesen ist noch immer extrem teuer. Das Speichern eines Megabytes Information als DNA kostet mehrere tausend Euro, das Lesen mehrere hundert. Aber die Biotechnik auf dem Gebiet der DNA-Analyse entwickelt sich rasend schnell. Als das Erbgut des Menschen zum ersten Mal gelesen wurde, kostete das etwa 100 Millionen Euro (und mehr als 10 Jahre). Heute ist das bereits für weniger als 1000 Euro machbar. Auch werden die Methoden mit der Zeit weniger fehleranfällig. Dann benötigen wir weniger Kopien und erreichen eine noch höhere Speicherdichte.
Übrigens müsst ihr keine Angst haben, dass euch jemand mittels DNA-Speicher Krankheiten ins Erbgut einschleusen kann. Würdet ihr einen solchen Speicher verschlucken, würdet ihr die enthaltene DNA einfach verdauen, genauso wie ihr täglich die pflanzliche und tierische DNA eurer Nahrungsmittel verdaut.
Könnt ihr euch ungefähr vorstellen wie groß ein Molekül ist? Zugegeben, es gibt natürlich Moleküle unterschiedlicher Größe. Ein menschliches Chromosom (also ein DNA-Molekül) ist im Durchschnitt ungefähr 4 Zentimeter lang. Ein Zucker-Molekül hingegen ist ungefähr 8 Ångström groß. Ein Ångström entspricht einer Länge von einem Zehnmilliardstel Meter. Das DNA-Molekül ist also etwa hundertmillionen Mal größer als das Zucker-Molekül. Das stimmt natürlich nur, wenn man die DNA “aufdröselt”. In gepackter Form ist ein Chromosom im Durchschnitt nur ungefähr 5 Mikrometer lang. So ein Chromosom kann man sich mit moderner Mikroskoptechnologie (Fluoreszenzmikroskopen oder Elektronenmikroskopen) sogar angucken.
Elektronenmikroskope haben eine deutlich höhere Auflösung als Lichtmikroskope. Mit einem Elektronenmikroskop sieht man Dinge im Nanometerbereich, wobei 0.000000001 Meter = 1 Nanometer = 10 Ångström. Unser 8 Ångström kleines Zuckermolekül ist also sogar für diese Technologie zu winzig. Trotzdem kennen wir die Struktur von Zucker. Und das schon bevor man überhaupt Elektronenmikroskope kannte. Wie kann das sein?
Die Struktur von Zuckermolekülen hat man ganz klassisch mittels chemischer Reaktionen bestimmt. Bestimmte Reaktionen deuten auf bestimmte chemische Gruppen im Molekül hin. Eine solche Analyse ist aufwendig und langwierig. Heute kennen wir da zum Glück andere Methoden: Mittels Kernspinresonanzspektroskopie kann man zum Beispiel die relativen Abstände der Wasserstoffatome im Molekül bestimmten. Bevor man die Anordnung der einzelnen Atome und deren Verbindungen untereinander überhaupt bestimmen kann, gilt es aber zuerst einmal herauszufinden: Was steckt drin, im Molekül?
Machen wir einen kurzen Exkurs zu eurer Sparbüchse: Stellt euch vor ihr wollt wissen, wie viel Geld ihr besitzt, seid aber viel zu faul die Münzen zu zählen (es sind sehr sehr viele Münzen — ihr seid Dagobert Duck und eure Sparbüchse ist eigentlich ein Geldspeicher). Was könnt ihr tun? Schnappt euch einfach eine Waage! Jede Euro Münze hat ein bestimmtes Gewicht. Exakt wird eure Berechnung, wenn ihr die Münzen vorher sortiert. Aber wie gesagt, ihr seid faul (vermutlich seid ihr Informatiker). Also brauchen wir einen Algorithmus, der uns das gemessene Gewicht zerlegt, in die Anzahl der enthaltenen Münzen, sortiert nach Münzarten. Das zugrunde liegende Problem ist als Münzproblem bekannt. Dabei geht es eigentlich um Wechselgeld: Mit welchen Münzen lässt sich ein Betrag x herausgeben? Algorithmisch gesehen steckt dahinter das gleiche Problem, wie bei unserer Geldwaage, wobei Wechselgeldbetrag=Gewicht des gesamten Geldes, Münzbeträge=Gewicht der Münzen. Das Münzproblem gehört zu den Rucksackproblemen, einer Gruppe der klassischen NP-vollständigen Probleme aus der theoretischen Informatik.
Vielleicht habt ihr schon gemerkt worauf ich hinaus will? Natürlich will ich kein Geld zählen, ich arbeite schließlich nicht in einer Bank, sondern bin Bioinformatikerin. Ich will die Zusammensetzung der Elemente in einem unbekannten Molekül herausfinden, also die Anzahl der Wasserstoff-, Kohlenstoffatome, usw. Oder anders gesagt, ich will die Summenformel des Moleküls herausfinden. Um Zucker zum Backen abzuwiegen mag meine Küchenwaage noch herhalten können, um ein einzelnes Zuckermolekül zu wiegen jedoch wohl kaum. Solche winzigen Massen lassen sich mittels Massenspektrometrie erfassen.
Ich hab jetzt also die Masse meines Moleküls (oder das Gewicht meines Münzbergs). Leider ist meine Lösung nicht immer eindeutig. Würde eine 2 Cent Münze 3 Gramm wiegen und eine 5 Cent Münze 6 Gramm, und meine Waage zeigt 6 Gramm an, dann weiß ich nicht, ob ich 4 oder 5 Cent besitze. Hinzu kommt, dass die Messtechnik nicht exakt ist und wir deswegen einen Fehlertoleranzbereich beachten müssen. Dadurch ergeben sich plötzlich extrem viele Zerlegungen (Summenformeln), die die ungenaue Masse erklären könnten.
Das Problem wird schwieriger, je mehr mögliche Elemente (oder Münzen) wir betrachten. Die häufigsten Elemente in der Natur sind Kohlenstoff, Wasserstoff, Stickstoff und Sauerstoff. Es gibt aber auch noch andere Elemente, die zwar seltener vorkommen, aber gerade für die Wirksamkeit von Medikamenten oft eine Rolle spielen, zum Beispiel Chlor, Brom oder Selen — und das sind längst noch nicht alle. Das Problem wird auch schwieriger, je schwerer das untersuchte Molekül ist, also je größer die Masse, die wir zerlegen müssen. Oft gibt es hunderttausende mögliche Zerlegungen. Woher weiß ich dann, welche die tatsächliche Summenformel des Moleküls ist?
Dafür verwendet man die Isotopenmuster der Moleküle. Die Elemente auf unserer Erde kommen in unterschiedlicher Form vor. Zwei Atome des gleichen Elements können unterschiedliche Anzahl an Neutronen enthalten, und haben somit ein unterschiedliches Gewicht. Zum Beispiel gibt es zwei stabile Isotopen von Wasserstoff: den “normalen” Wasserstoff (kein Neutron), und den schweren Wasserstoff (ein Neutron). Normaler Wasserstoff kommt auf unserem Planeten zu 99.985% vor, schwerer nur zu 0.015%. Durch die unterschiedliche Häufigkeit der Isotopen entsteht im Massenspektrum ein Muster — das Isotopenmuster. Je nach Anzahl der enthaltenen Elemente ändert sich dieses Muster. So kann man zwei Moleküle mit gleicher Masse aber unterschiedlicher Zusammensetzung voneinander unterscheiden.
Mittels bioinformatischer Methoden kann man das Isotopenmuster einer Summenformel simulieren. Vergleiche ich das Muster mit einer Messung meines unbekannten Moleküls, kann ich herausfinden, welche Summenformel die wahre Zusammensetzung des Moleküls ist. Natürlich macht das der Rechner, nicht ich — trotzdem: hunderttausende Isotopenmuster zu simulieren und zu vergleichen kostet Rechenzeit. Wie könnte ich Rechenzeit sparen? Zur Erinnerung: unser Problem wird schwieriger mit der Größe des Moleküls und mit der Anzahl der möglichen Elemente, die wir betrachten. Nun, an der Größe des Moleküls können wir wohl kaum etwas ändern, an der Anzahl der Elemente, die wir betrachten, vielleicht schon.
Was wäre, wenn ich schon vorher erraten könnte, welche Elemente sich sehr wahrscheinlich im Molekül befinden? Klar, Kohlenstoff, Wasserstoff, Stickstoff und Sauerstoff kommen in fast allen Molekülen vor, nehmen wir diese also als gesetzt. Wie sieht es mit Chlor, Brom oder Selen aus? Muss ich die Elemente überhaupt betrachten, wenn sie doch eh nur selten vorkommen? Einfach ausschließen können wir sie nicht. Aber — welch ein Glück — diese Elemente haben besonders auffällige Isotopenmuster. Die Muster sind sogar so prägnant, dass sie sich im Isotopenmuster des Moleküls widerspiegeln. Enthält mein Molekül Chlor, erkenne ich das von vornherein am gemessenen Muster. Und besser noch als ich selbst erkennen es Computer. Mittels Maschinellem Lernen können Computer vorhersagen, ob ein Molekül bestimmte seltene Elemente überhaupt enthalten kann.
Vielleicht habt ihr schon gemerkt, eine der großen Künste der Bioinformatik ist es, die biologischen Fragestellungen in die richtigen Teilprobleme zu zerlegen, die sich dann Schritt für Schritt lösen lassen. Zuerst bestimmen wir, was überhaupt drin sein kann im Molekül, dann bestimmen wir die genaue Zusammensetzung der Elemente und erst dann lohnt es sich zu untersuchen, wie die einzelnen Atome angeordnet sind. So gesehen, ist es auch heute noch ein langer Weg, um die Struktur eines Moleküls aufzuklären. Nur begeben wir uns nicht mehr zu Fuß auf diesen Weg, sondern eher in einer Rakete — und zwischendrin müssen wir ab und zu umsteigen.
Beitrag auf BioinfoWelten lesen.
]]>
Es ist immer ein schöner Moment, wenn ich einen Kollegen oder eine Kollegin in diesem Moment begleiten darf. Die Aufregung vor dem Vortrag, vor den Fragen in der öffentlichen Diskussion und die Erleichterung, wenn man alles hinter sich gebracht hat. Deswegen möchte ich euch an diesem Ereignis teilhaben lassen und euch die frisch gebackenen Doktoren vorstellen.
Am Dienstag war es wieder soweit: Mein Kollege Markus Fricke durfte sich der öffentlichen Diskussion stellen, um seine Promotion zum ersehnten Abschluss zu bringen. Sein Thema:
Oder kurz gesagt: Es ging um Viren und es ging um RNA-Strukturen.
Wir wissen noch immer unglaublich wenig über Viren. Es gibt Schätzungen, dass es allein in Säugetieren 320.000 unbekannte Viren gibt. Und während die Informatik schon längst in die meisten biologischen Forschungsgebiete Einzug gehalten hat, haben sich Bioinformatik und Virologie jahrelang ignoriert. Das Problem ist, dass Viren kaum mit den uns bekannten Lebensformen zu vergleichen sind. Deswegen können wir bekannte bioinformatische Methoden nicht eins-zu-eins anwenden, und gleichzeitig gibt es erst wenige virenspezifische Programme.
Markus hat sich in seiner Dissertation mit der Sekundärstruktur von RNA-Viren-Genomen beschäftigt. Die Genome von RNA-Viren sind besonders kurz und gleichzeitig ist die Vervielfältigung der RNA-Genome besonders fehleranfällig. Das führt zu vielen Mutationen und somit zu einer unvergleichlichen Anpassungsfähigkeit an unterschiedliche Wirtsorganismen. Die Nukleinbasen der RNA können Verbindungen eingehen, durch die sie zweidimensionalen Strukturen ausbilden. Solche Strukturen ermöglichen der RNA viele regulierende Funktionen innerhalb von Zellen. Auch RNA-Viren bilden solche Strukturen und können damit in die Funktionen unserer Zellen eingreifen und lösen im schlimmsten Fall Fehlfunktionen aus, die sich dann als Krankheit äußern. Deswegen müssen wir die RNA-Strukturen der Viren-Genome besser verstehen. Zwei wichtige Fragen, mit denen Markus sich beschäftigt hat, sind:
Um die Struktur der viralen RNA-Genome zu untersuchen, hat Markus maßgeschneiderte Programme entwickelt, die deren Besonderheiten beachten. Mit den neu entwickelten Programme hat er unter anderem Hepatitis-C-Viren (HCV) und Coronaviren untersucht. HCV ist der Erreger der chronischen Hepatitis C und gehört zu einer Gruppe krebserregender Viren. Markus konnte für HCV RNA-Strukturen vorhersagen, die eine wichtige Rolle in der Vermehrung der Viren spielen.
Seine Disputation hat Markus ganz souverän gemeistert und den Fragen der Promotionskommission (ich war übrigens ein Teil davon) und des Publikums war er problemlos gewachsen. Als Belohnung für die jahrelange harte Arbeit gibt es (neben der Promotionsurkunde, pfff…) auch einen coolen Doktorhut! Der wird traditionell von den Kollegen gebastelt und soll sowohl die eigene Arbeit als auch die Persönlichkeit des frisch gebackenen Doktors spiegeln. Auf Markus’ Hut gab es zum Beispiel ein HCV-Kuscheltier (wer kuschelt nicht gerne mit Viren?), ein Virus-Puzzle, Doppelkopf-Karten und vieles mehr.
In Jena gibt es außerdem noch ein altes akademisches Ritual: frisch gebackene Doktoren müssen einen Kranz über das Schwert unseres Universitätsgründers Johann Friedrich I. von Sachsen (oder kurz Hanfried) werfen. Der Hanfried steht auf dem Marktplatz — für ausreichend Publikum ist also gesorgt. Das Schwert zu treffen ist angesichts der Höhe gar nicht so einfach. Markus hat es versucht bis der Kranz letztendlich zerfallen ist. Gezählt habe ich die Anzahl der Versuche nicht. Was die Konsequenzen des “Nicht-Treffens” sind, ist mir nie übermittelt worden. Ich gehe also davon aus, das Markus sich keine Sorgen machen muss. Wie er selbst seine Promotionszeit fand und wie es bei ihm jetzt weiter geht, verrät er uns in einem kurzen Interview.
In Jena gab es viele Angebote für eine Promotion und ich wollte gern noch in Jena bleiben. Die Möglichkeit in einer neu gegründeten Arbeitsgruppe über virenspezifische Themen zu forschen hat mich auch gereizt. Außerdem dachte ich es kann für meine spätere Karriere von Vorteil sein.
Ja
selbstbestimmtes freies Arbeiten
Nein
Es hat Spaß gemacht zu den verschiedenen Konferenzen zu reisen und dabei auch unterschiedliche Menschen, Länder und Städte kennenzulernen, wie zum Beispiel Tokio oder auch Basel… und natürlich der Moment als ich meine Promotion erfolgreich abgeschlossen habe
Während der Promotion habe ich viel gelernt, zum Beispiel wie es in der Wissenschaft “abgeht” und wie man selbständig und auch zielführend arbeitet … und natürlich eine Menge über Viren.
Wählt ein Thema, das euch interessiert und Spaß macht; ihr müsst daran schließlich einige Jahre arbeiten.
Ich werde erst einmal noch ca. zwei Jahre in Jena bleiben und in unserer Arbeitsgruppe als PostDoc arbeiten … dann sehen wir weiter. Vorrangig würde ich aber gern eine Anstellung in der Wirtschaft finden, da mir die ständigen befristeten Stellen an den Universitäten nicht zusagen. Eine langfristige Planung ist damit kaum möglich.
Wer noch mehr Bilder sehen will, kann den Beitrag auf BioinfoWelten lesen.
]]>Wie geht das Leben nach dem Bioinformatik Studium weiter? Arbeit an der Uni? Ab in die Wirtschaft? Forschung, IT oder doch noch einmal etwas völlig neues ausprobieren?
Ich habe für euch ehemalige Bioinformatik-Studenten ausgefragt, wie sich ihr Leben nach dem Studium entwickelt hat, was sie in ihrem heutigen Job machen und was das überhaupt noch mit Bioinformatik zu tun hat.
Ich möchte ausdrücklich darauf hinweisen, dass keiner der Beiträge von den jeweiligen Firmen gesponsert wurde.
Hier findet ihr eine Übersicht zu allen bisherigen Interviews:
Hinweis: Dieser Beitrag wurde NICHT gesponsert. Dieser Beitrag ist ein persönliches Interview.
Während der Schulzeit hatte ich schon klare Vorstellungen, dass ich später im Bereich Informatik arbeiten möchte. Zudem fand ich Biologie immer schon spannend und hatte entsprechend im Abitur selbiges auch als Hauptfach gewählt. Allerdings waren mir die Jobaussichten in der Biologie zu unsicher, weshalb ich schon früh von einem Studium in diese Richtung absah. Als sich mein Abitur dem Ende näherte, stellte ich fest, dass es mittlerweile der Studiengang “Bioinformatik” an ca. 5-8 Universitäten in Deutschland angeboten wurde. War damals unter dem Namen noch recht neu, wobei es immer schon Arbeitsgruppen gab, die in diesem Bereich (unter anderen Namen wie “Biomathematik” etc) gearbeitet haben. Und so sah ich die Möglichkeit beide Interessen in einem Studiengang zu vereinen, was ich dann auch gemacht habe.
Ich habe an der Friedrich-Schiller Universität Jena studiert und war damals im ersten Jahrgang, der überhaupt dort Bioinformatik studiert hat. Das war spannend, da einerseits noch alles, inklusive Studienprogramm, im Fluss war, wir aber andererseits auch viel mitgestalten konnten. Damals war der Studiengang noch mit persönlichen Auswahlgesprächen (was man später aus Zeitmangel weggelassen hatte). Als ich da zum “Vorstellungsgespräch” bin, war das schon sehr aufregend. Ist aber scheinbar soweit gut gegangen, denn ich war einer der ersten 15, die in Jena Bioinformatik studiert haben.
Das Studium fand ich, bis auf einige harte (Bio/Physikalische)Chemie Grundvorlesungen, sehr interessant, weil wir beide Welten der Informatik und Biochemie/Molekularbiologie kennengelernt haben. Es gab auch wet-lab Praktika, sodass wir auch ein Gefühl dafür bekamen, wieviel Arbeit in biologischen Daten stecken und wie fehleranfällig deren Gewinnung ist.
Alles in allem war das Studium in Jena ein sehr gute Zeit sowohl was das Studium betrifft als auch das Studentenleben drumherum.
Derzeit arbeite ich in einem Forschungsprojekt, das ich selbst mitgestaltet und eingeworben habe. Das heißt, ich habe zusammen mit meinen zwei Professoren Prof. Backofen (Bioinformatik) und Prof. Spiecker (Forstwissenschaften) einen Projektantrag für ein Forschungsprojekt über drei Jahre geschrieben. Dieses wurde positiv begutachtet und bewilligt, sodass meine Stelle daraus finanziert werden kann.
Grundlegend ist die langfristige Stellensituation in der Forschung relativ schlecht, das es (zumindest im mir bekannten universitären Bereich) quasi keine Mittelbaudauerstellen gibt. Daher muss man entweder mit befristeten Verträgen leben und langfristig eine Professur anstreben, oder irgendwann die Universität verlassen, wenn einem das (z.B. für die Familienplanung) zu unangenehm wird.
Ich entwickle ein Programm um Holzdichtedaten zu analysieren. Die gewonnen Informationen sollen im Anschluss genutzt werden, um besser zu verstehen, wie einzelne Umweltfaktoren (wie z.B. Höhenlage im Gebirge, Bodenbeschaffenheit, etc.) das Wachstum von Bäumen beeinflussen.
Ausserdem bin ich sehr in die Lehre unserer Professur integriert. Das heißt, ich bin für die Organisation unserer Lehre verantwortlich und gebe auch selbst eine Vorlesung. Da ich zu Studienzeiten immer wieder Dozenten begegnet bin, die didaktisch schlecht ausgebildet waren (was daran liegt das gute Forscher/Professoren nicht zwingend gute Dozenten sind), versuche ich mich dahingehend weiterzubilden und das in meine Lehre zu integrieren. Derzeit nutze ich das flipped classroom Modell für meine Vorlesung, wofür ich auch einen Lehrpreis erhielt. Dabei wird die Vorlesung quasi zum Seminar und die Studierenden erarbeiten sich die Lehrinhalte zuvor selbst mit Hilfe von Selbstlernmodulen. Das funktioniert in meiner Erfahrung sehr gut, bedeutet aber für mich als Lehrenden einen erhöhten Aufwand in der Erstellung der Lehrmaterialien. Aber ich finde es lohnt sich und bekomme gutes Feedback.
Final betreue ich auch einige Doktoranden und Masterabschlussarbeiten und bin der Hauptverantwortliche für unseren Webserver Freiburg RNA Tools, der die an der Professur entwickelten Programme für Endanwender aus der Biologie in einfachen Oberflächen zur Verfügung stellt.
Was ich am meisten mag ist die Flexibilität und Vielfalt meiner Arbeit. Das bedeutet zwar, das ich oft viele “Baustellen” parallel habe, aber es wird auch selten langweilig.
Da ich noch an der Universität im Bereich Bioinformatik arbeite, ist der Bezug 100%. Die Probleme mit denen ich mich heute auseinandersetze sind natürlich nicht direkt mit dem Lehrstoff meines Studiums verbunden. Allerdings hilft mir meine Informatikausbildung natürlich sehr meine Softwareentwicklung zu gestalten sowie Forschungsergebnissen fundiert, mathematisch zu formulieren und mein Bio-Background ermöglicht ein schnelles Einarbeiten in neue biologische Probleme.
Lernt Englisch! Bioinformatik ist Forschung und Forschung ist englischsprachig. Das bedeutet man muss viel Englisch lesen, schreiben und sprechen, da Forschung auch Dialog ist. Das sehe ich als wichtigen Punkt.
Ansonsten ist Bioinformatik ein seeeehr weites Feld. Ich kenne Leute aus allen Gebieten die heute in der Bioinformatik arbeiten. Darunter Physiker, Mathematiker, Biologen, Biochemiker, Chemiker, Informatiker,… und eben auch Bioinformatiker. Das heißt, es kommt nicht so sehr darauf an WAS man studiert, solange man das Interesse an der computergestützten Analyse von biologischen Daten mitbringt. Sprich es gibt die “informatische” Bioinformatik, in der ich arbeite und in der Programme entwickelt werden, und die eher “biologische” Bioinformatik die mehr an der Anwendung von tools und pipelines interessiert ist, um die eigentlichen biologischen Fragestellungen zu beantworten. Je nachdem wo die eigenen Interessen liegen, sollte man seine Studienrichtung legen.
Wichtig ist dabei: frühzeitig das fehlende Wissensgebiet durch fakultative Kursbelegungen ausgleichen. Das heißt als Biologe unbedingt (bio)informatische Kurse belegen und als Informatiker nicht vor Bio-Kursen zurückschrecken. Nur so wird man am Ende beide “Sprachen” sprechen und in der Bioinformatik “Schnittstelle” arbeiten können.
Beitrag auf BioinfoWelten lesen.
]]>
Aber was bedeutet Machine Learning. Wie können Maschinen dazu in der Lage sein zu “lernen”? Was bedeutet “Lernen” eigentlich? Wikipedia sagt: “Unter Lernen versteht man den absichtlichen oder beiläufigen Erwerb von geistigen, körperlichen, sozialen Kenntnissen, Fähigkeiten und Fertigkeiten.” Stellen wir uns folgendes Beispiel vor: Eine Mutter läuft mit ihrem Kleinkind durch die Stadt. Eine Katze läuft ihnen über den Weg. Das Kind zeigt auf die Katze und freut sich. Die Mutter bringt ihm bei “Das ist eine Katze”. Sie laufen weiter. Ein Hund läuft ihnen über den Weg. Das Kind deutet auf den Hund und sagt “Katze”. Die Mutter sagt “Nein, das ist keine Katze”. Anhand solcher Positiv- und Negativbeispiele lernen Kinder die Welt um sich herum kennen und einzuordnen. Und genau anhand solcher Positiv- und Negativbeispiele kann das auch eine Maschine. In dem Fall spricht man von Überwachtem Lernen.
Eine typische Anwendung für Machine Learning sind Klassifizierungsprobleme. Menschen stecken ja gerne alles in Schubladen und haben das auch dem Computer beigebracht. Dabei gibt es zwei unterschiedliche Herangehensweisen: Entweder kennt man die Schubladen schon vorher (alle Katzen in die Katzenschublade, alle Hunde in die Hundeschublade usw) oder man muss die Schubladen erst noch herausfinden.
Nehmen wir mal an, wir kennen die Schubladen schon, dann könnte man den Computer mit Regeln füttern, nach denen er zum Beispiel Bilder in diese Schubladen sortiert: “Wenn es Fell, einen Schwanz, dreieckige, aufrechte Ohren und Schnurrhaare hat, ist es eine Katze”. Machine Learning benötigt aber eben genau diese Regeln nicht. Wir müssen die Regeln also nicht formulieren können. Stattdessen füttern wir den Computer mit Positiv- und Negativbeispielen. Ein Beispiel besteht aus einer Menge an Eigenschaften, zum Beispiel Schwanz, Fell, Augen, Augenfarbe, Größe, usw. und der Einordnung ob es eine Katze ist oder nicht. Wenn man dem Computer genügend Positiv- und Negativbeispiele gegeben hat, kann er danach selbst entscheiden, ob auf dem Bild eine Katze zu sehen ist oder nicht.
Habt ihr schon mal einen dieser Tests in einer Zeitschrift gemacht, bei denen man durch ein Diagramm geführt wird indem man Fragen beantwortet? Eine weit verbreitete Machine Learning Methode funktioniert auf eine ähnliche Weise. Man spricht hier von Entscheidungsbäumen. Die Fragen in den Zeitschriften erscheinen oft logisch und man weiß meist schon vorher, in welche Schublade man am Ende gesteckt wird. Es sind diese “formulierten Regeln” nach denen wir Menschen vorgehen. Die Fragen, die in von Computern erstellten (gelernten) Entscheidungsbäumen gestellt werden, erscheinen für uns Menschen nicht unbedingt so logisch. Meist wird auch nicht ein einzelner Entscheidungsbaum erstellt, sondern viele. So als würdet ihr mehrere Tests zur gleichen Frage machen. Am Ende entscheidet man dann nach der Mehrheit.
Eine andere Methode sind Supportvektor-Maschinen. Wie Turingmaschinen, sind sie keine echten mechanischen Maschinen, sondern ein mathematisches Verfahren. Stellen wir uns vor, wir haben 1000 Positiv- und Negativbeispiele (“Katzen” vs “keine Katzen”), die wieder jeweils bestimmte Eigenschaften haben (Schwanz, Fells usw). Wir können uns ein einzelnes Beispiel als einen Punkt vorstellen, der durch seine Eigenschaften einen bestimmten Platz in einem Raum einnimmt. Wenn wir alle Beispiele als Punkte in diesem Raum betrachten, dann können wir eine Wand in den Raum einziehen, die die Katzen, von den Nicht-Katzen trennt. Ok, ganz so einfach ist es oft nicht. Oft sind die Punkte so im Raum verteilt, dass sie sich nicht sauber durch eine “Wand” trennen lassen. Man sagt, sie sind nicht “linear trennbar”. Man verwendet dann den sogenannten “Kernel-Trick”: Man projiziert den Raum in einen höherdimensionalen Raum, in dem die Punkte linear trennbar werden. Stellt euch ein Blatt Papier vor auf das rote und grüne Punkte gezeichnet sind, die sich nicht sauber mit einem geraden Schnitt voneinander trennen lassen. Wenn ihr das Papier aber richtig faltet, dann wird das aber auf einmal möglich.
Wenn wir dem Computer jetzt ein unbekanntes Bild zeigen, dann macht er daraus wieder einen Punkt in dem Raum mit der Wand. Je nach dem auf welcher Seite der Wand der Punkt liegt, wissen wir, ob es eine Katze ist, oder nicht.
Entscheidungsbäume und Supportvektor-Maschinen gehören zu den überwachten Lernmethoden. Manchmal weiß man aber nicht, wie viele Klassen es eigentlich gibt, in die wir unsere Objekte einteilen wollen. Wir wollen einfach ähnliche Objekte zusammen sortieren und damit neue Gruppen finden. Es gibt zahlreiche Ansätze und Algorithmen, die sich mit dieser Aufgabe befassen. Generell spricht man von “Clustering”, wobei ein Cluster eine Art “Haufen” oder “Bündel” ist.
Es gibt noch viele weitere Machine Learning Methoden, zum Beispiel künstliche neuronale Netze oder Probabilistische Graphische Modelle. Machine Learning ist cool. Machine Learning ist überall. Und Machine Learning ist natürlich auch Teil der Bioinformatik. Die Masse an biologischen Daten wächst und wächst. Nützliche Information aus dieser riesigen Menge an Daten zu filtern, fällt uns Menschen schwer, den Maschinen einfacher. Das liegt vor allem daran, dass Computer keine Regeln formulieren müssen, nach denen sie sortieren. Maschinelles Lernen wird mittlerweile in allen biologischen Bereichen angewendet: Genomik, Proteomik, Transkriptomik, Stammbaumforschung, … Von der ein oder anderen Anwendung habe ich euch schon berichtet und es folgen sicher noch weitere.
PS: So aus persönlichem Interesse: Welcher Typ Mountainbiker seid ihr?
Beitrag auf BioinfoWelten lesen.
]]>
Um diese Frage zu beantworten gibt es in der Informatik das Konzept der Berechenbarkeit. Ein Problem ist dann berechenbar (also von einem Computer lösbar), wenn man dafür einen Algorithmus schreiben kann. Um zu testen, ob ein Problem berechenbar ist, gibt es verschiedene Modelle. Eines davon ist die Turing-Maschine, von der ich euch hier schon berichtet habe. Turing-Maschinen sind nicht real existierend, sondern ein Konzept, welches man sich folgendermaßen vorstellen kann: man hat ein unendlich langes Tape oder einen unendlich langen Streifen Papier, der in aneinandergereihte, einzelne Felder unterteilt ist. Außerdem hat die Maschine einen Lese-/Schreibkopf, den man entlang des Bandes bewegen kann. Eine Turing-Maschine hat drei Funktionen: Lesen, Schreiben und den Kopf bewegen.
Für jedes Problem, das berechenbar ist, kann man sich eine solche Maschine ausdenken, die nur durch diese drei Funktionen das Problem lösen kann und irgendwann anhält. Der Kopf kann dabei verschiedene Zustände annehmen. Für jeden Zustand gibt es eine Anweisung, was die Maschine als nächstes tut. Diese Anweisung besteht aus “Lesen, Schreiben, Kopf-Bewegen, Zustand ändern”. Zu Beginn ist das Band mit Nullen gefüllt. Eine mögliche Anweisung für Zustand 1 wäre “wenn eine Null auf dem Band steht, schreibe eine Eins, rücke ein Feld nach rechts, gehe in Zustand 2”. Die Beschreibung dieser Zustände und der durchzuführenden Aktionen, entspricht dem Algorithmus zur Lösung des Problems. Wichtig ist dabei, dass es einen Haltezustand gibt, in den die Maschine irgendwann läuft.
Stellen wir uns jetzt eine Turing-Maschine vor, die folgendes Problem lösen soll, schreibe maximal viele Einsen auf das Band und stoppe dann. Hätte diese Maschine nur einen Zustand, könnte sie nur eine einzige Eins schreiben. Dieser Zustand wäre zum Beispiel: “wenn eine Null auf dem Band steht, schreibe eine Eins, rücke ein Feld nach rechts, halte an”. Würde die Maschine wieder in den selben Zustand gehen, statt anzuhalten, würde sie unendlich viele Einsen auf das Band schreiben und niemals anhalten. Eine Turing-Maschine mit zwei Zuständen kann maximal vier Einsen auf das Band schreiben, eine mit drei Zuständen maximal sechs Einsen.
Die beschriebenen Turing-Maschinen heißen fleißige Biber. Warum? Man will sozusagen die fleißigste Turing-Maschine finden, also die, die die meisten Einsen schreibt, bevor sie anhält. Könnte man sich jetzt eine Turing-Maschine ausdenken, die berechnet, wie viele Einsen der fleißigste Biber für n Zustände schreibt? Nein, leider kann man das nicht. Warum? Wir müssten uns zuerst alle Turing-Maschinen mit n Zuständen überlegen und dann alle durchtesten, wie viele Einsen sie schreiben, um den fleißigsten Biber zu finden. Das Problem ist: Solange der Biber Einsen schreibt, woher sollen wir wissen, ob er noch anhalten wird oder niemals stoppt?
Kann man überhaupt feststellen, ob ein Algorithmus jemals stoppt? Ist das Problem “Hält der Algorithmus X auf Eingabe Y” berechenbar? Kann man einen Über-Algorithmus schreiben, der für alle möglichen Algorithmen und beliebige Eingaben bestimmt, ob der Algorithmus stoppt? Wie müsste ein solcher Über-Algorithmus aussehen? Nein, kann man nicht. Bewiesen hat das Alan Turing mittels seiner Turing-Maschinen und schön nachvollziehen lässt sich das anhand eines Widerspruchs.
Was bedeutet das praktisch? Es gibt also Probleme, deren Lösungen sogar wohl definiert sind (zum Beispiel die maximale Anzahl an Einsen, die der fleißigste Biber schreibt), die man aber mit dem Computer nicht berechnen kann. Und zwar mit keinem Computer, auch keinem, der vielleicht in der Zukunft entwickelt wird (vorausgesetzt er liest und schriebt Zeichen auf einem Speicher). Immerhin weiß der faule Informatiker dann, dass er es auch gar nicht erst versuchen muss. Aber selbst wenn ein Problem algorithmisch lösbar (also berechenbar) ist, ist es in erster Linie theoretisch lösbar. Algorithmisch lösbar bedeutet aber noch längst nicht, dass das Problem auch “praktisch lösbar” ist. Aber dazu erzähle ich euch ein andermal mehr.
Die Maus: (Mus musculus) weltweit verbreitetes kleines Nagetier.
Die Maus: Standardeingabegerät für den Computer.
Der Baum: verholzte Pflanze, bestehend aus Wurzel, Stamm und Krone.
Der Baum: spezieller Graph, der zusammenhängend ist und keine geschlossenen Pfade enthält.
Das Virus: infektiöser Partikel, der sich nur innerhalb einer Wirtszelle vermehren kann.
Das Virus: sich selbst verbreitendes Computerprogramm, welches sich in andere Computerprogramme einschleust und reproduziert.
Habt ihr es erkannt? Maus, Baum und Virus sind Begriffe, die sowohl in der Biologie als auch in der Informatik eine Bedeutung haben. Sie stehen für mich stellvertretend für die Verbindung zweier Welten.
Warum heißt die Computermaus eigentlich Maus? Ursprünglich wurden Mäuse noch per Kabel mit dem Computer verbunden. Die Form der Computermaus in Verbindung mit dem Kabel erinnerten einfach stark an das kleine Nagetier. Warum nennen die Informatiker eine Gruppe von Graphen Bäume? Zu diesen speziellen Graphen zählen zum Beispiel Stammbäume — das sind natürlich keine echten Bäume, sondern eher eine Darstellung der evolutionären Abstammungsgeschichte. Aber wie bei einem Baum, gibt es auch in einem Stammbaum eine Wurzel und Verzweigungen bishin zu den Blättern: das sind wir selbst. Und warum spricht man von einem Computervirus? Viren dienen nur ihrer eigenen Vermehrung in einer fremden Wirtszelle und können dabei (versehentlich) Schaden anrichten. Das gleiche gilt auch für einen Computervirus. Nur dass der Schaden dabei wohl eher beabsichtigt ist.
Biologie in Informatik umsetzen, durch Informatik die Biologie vorantreiben, uns aus der Biologie Ideen für die Informatik ziehen — genau diese Denkweisen sind es, die man als Bioinformatiker erlernen muss. Biologie und Informatik haben viel mehr gemeinsam, als einem im ersten Moment bewusst ist. Neben Maus, Baum und Virus, gibt es viele Ideen und Konzepte, die sowohl in der Informatik als auch der Biologie eine Bedeutung haben. Lasst mich euch zwei kleine Beispiele geben:
Die Nervenzellen (Neuronen) in unserem Gehirn sind über Synapsen miteinander verknüpft und bilden ein Netzwerk. So können sich die Neuronen miteinander austauschen und Informationen als Signale weiterleiten. Eine Nervenzellen hat üblicherweise mehrere eingehende Nervenzellen und einen Ausgang. Kriegt die Nervenzelle genügend Eingangssignal, leitet sie ein Ausgangssignal weiter. Solche neuronalen Netze ermöglichen es, komplexe Muster zu lernen. Und zwar nicht nur in unserem Gehirn, sondern auch im Computer. Solche künstlichen neuronalen Netze werden zum Beispiel für maschinelle Gesichtserkennung verwendet. Genau wie unser Gehirn müssen auch die künstlichen Netze trainiert werden. Dann können sie aber Großes leisten. AlphaGo, das erste Computerprogramm, dass es geschafft einen Menschen im Go spielen zu schlagen, beruht auf einem künstlichen neuronalen Netz.
Zufall spielt in der Biologie eine riesige Rolle. Die Grundlage der Evolution, nämlich Mutationen, die zu Veränderungen in unserem Erbgut führen, sind zufällig. Ereignisse sind zufällig, wenn es keine Ursache als Erklärung für das Ereignis gibt. Mutationen haben zwar durchaus eine Ursache (zum Beispiel UV-Strahlung), das Zusammentreffen der Ereignisse ist aber zufällig. In der Informatik gibt es Algorithmen, die den Zufall nutzen um schwer lösbare Probleme bewältigen zu können. Schwer lösbare Probleme zeichnen sich vor allem dadurch aus, dass die Algorithmen extrem lange rechnen, um zu einer Lösung zu kommen. In dem man zufällige Schritte in den Algorithmus einbaut, kann man auf zwei Wegen Abhilfe schaffen: man verzichtet unter Umständen auf die ganz exakte Lösung oder aber man hat zufällig Glück (oft) und der Algorithmus ist schnell oder Pech (selten) und der Algorithmus ist langsam.
Das sind nur zwei Beispiele für Prinzipien, die sich Biologie und Informatik teilen. Es gibt noch viel mehr solcher Prinzipien und Ideen, die sich die eine Wissenschaft von der anderen abschauen kann. Die große Kunst der Bioinformatik ist es, beide Disziplinen zusammenzuführen und dadurch beide Wissenschaften voranzutreiben.
]]>