In der Biologie gibt es momentan einen rasanten technischen Fortschritt was die Sequenzierung von DNA angeht. Es werden mit neuen Methoden immer größere Datenmengen erzeugt. Diese neue Methoden sind insofern neu, dass sie nicht auf den chemischen Reaktionen beruhen, die in den frühen 70er Jahren von Frederick Sanger und Kollegen entdeckt wurden. Tatsächlich wurden nämlich genau diese Reaktionen in einer hoch parallelisierten Form zur Sequenzierung des ersten menschlichen Genoms und für die Genome der bekannten Modellorganismen eingesetzt.

Die Weiterentwicklung der ursprünglichen Technik ging im Fall der Sanger-Sequenzierung mit einer Weiterentwicklung der Methoden zur Analyse der Sequenzen einher. Diese Weiterentwicklung fand auf beiden Gebieten – Chemie der Sequenzierungsreaktionen und Algorithmen zur Dantenanalyse – an öffentlich finanzierten Forschungseinrichtungen statt. Der chemische Part wurde dann im Nachhinein kommerzialisiert.

Diese vergleichsweise langsame und stetige Entwicklung resultierte auf Seite der Datenanalyse in einer Sammlung von qualitativ hochwertigen Programmen. Die Sicherung der Qualität wird dabei einerseits durch die tausendfache Benutzung, andererseits durch die Offenheit der Quellcodes der jeweiligen Programme gewährleistet.

Bei der Abschätzung der Qualität der jeweiligen Sequenz hat sich dabei beispielsweise ein Programm von Phil Geen namens Phred etabliert. Es ordnet den einzelnen Basen eine Qualität zu, diese kann dann in weiteren Analysen eingesetzt werden.

Nächster Schritt in der Sequenzanalyse ist häufig das Assembley, das Zusammenpuzzeln einzelner Sequenzstücke. Sowohl bei den neuen Methoden als auch bei der Sanger-Methode handelt es sich nämlich um “Shotgun” -zu deutsch “Schrotschuss” – Methoden: Das Zielmolekül ist um ein Vielfaches länger als die Leseweite der chemischen Reaktionen, es muss aus überlappenden Regionen einzelner Schnipsel zusammengesetzt werden. Hier haben sich Programme wie Phrap oder Cap3 etabliert.

Schon beim ersten Schritt der Qualitätsmessung der Sequenzen gibt es nun Bedarf für neue Methoden. Während die moderne Form der Sanger-Sequenzierung auf Fluoreszenzsignalen basierte werden bei den neuartigen Methoden die Sequenzen aus Abfolgen von Hochauflösenden Bildern bestimmt. Die Hersteller der Sequenziergeräte nehmen etwa halbjährlich kleine Änderungen in der Chemie vor, was jeweils zu einem Weiterentwicklung (mehr Daten zu günstigeren Preisen), aber auch zu einer potentiellen Änderung von Fehlerquellen führt. Eine Lösung hierfür wird es wohl erst in einiger Zeit gebe, wenn eine gewisse Ruhe bei der Weiterentwicklung eingekehrt ist und sich Methoden zur Fehlerabschätzung etablieren können. Solange bleibt es eine Herausforderung in der Weitergehenden Analyse mit der fehlenden bzw ungenauen Information umzugehen.

Auch beim Assembly besteht Bedarf an neuen Methoden, hier vorallem durch die schiere Datenmenge. Zwei der drei neuen Technologien (Abi-Solid und Illumina Solexa) produzieren sehr kurze (<100b Sequenzen), von diesen dafür sehr, sehr, sehr viele. Die Effizienz der etablierten Algorithmen reicht hier häufig nicht aus um auf realistischer Hardware Ergebnisse erzielen zu können. Ein Problem stellt nun dar, dass die neuen Sequenziermethoden von Anfang an in Unternehmen weiterentwickelt werden. Diese Unternehmen liefern zu ihren Maschienen auch Programme zur weiterführenden Analyse mit. Diese Programme besitzen häufig eine grafische Benutzeroberfläche, sind aber nicht quelloffen und liefern qualitativ fragwürdige Ergebnisse. Der gewissenhafte Benutzer greift hier auf an öffentlichen Forschungseinrichtungen entwickelte, quelloffene Programme zurück. Diese setzen allerdings ein Arbeiten an der Kommandozeile, häufig in einer Unix/Linux Umgebung voraus. Um Ergebnisse einzelner Analyseschritte zwischen Programmen und Dateiformaten weiterzuleiten ist das Erlernen einer Script-Sprache wie Perl oder Python erforderlich. Im besten Fall gibt es für bestimmte Dateiformate sogar schon Benutzerschnittstellen in Bio-Perl/Phyton/Java oder in R-Bioconductor. Für viele Biologen ist dieses Feld noch ungewohnt und so haben sich teilweise auch teure Programme etabliert, die zwar grafische Benutzeroberflächen bieten, aber keinen Zugang zu Quellcodes, fragwürdige Algorithmen und nicht reproduzierbare Ergebnisse mit sich bringen. Für eine Doktorarbeit hat man in der Biologie etwa 3 Jahre Zeit, dies ist eine völlig ausreichende Zeit, um die ein oder andere Programmiersprache zu erlernen - auch ohne Vorkenntnisse, sogar ohne direkte Anleitung: Auf keinem anderen Gebiet bietet das Netz so detaillierte Informationen. Für die Mühe wird man dann außer dadurch, dass man seine Arbeit ordentlich erledigen kann auch damit belohnt, dass man das Gerät, vor dem man den Großteil seiner Arbeitszeit verbringt besser beherrscht. Die Biologie hat sich von einer Disziplin mit überschaubaren Datensätzen zu einer mit riesigen Datenmengen entwickelt, und tut dies immer weiter. Dies soll auch als Erklärung dafür dienen, dass ich in der nächsten Zeit weiter hier über eher technische Dinge schreiben werde.