bwa[Li and Durbin, 2009; Li and Durbin, 2010] ist ein weit verbreitetes Mapping-Programm für kurze sog. reads des next-generation-sequencing (NGS). Bei den reads, für die man bwa nutzt, handelt es sich üblicherweise um DNA-Abschnitte von 50 bis 300 bp Länge. Und mit Mapping bezeichnet man den Prozess bei dem diese reads einem oder mehreren Orten in einem Referenzgenom zugeordnet werden*. Der Name des Programms bwa ist ein Akronym der Transformation, die für den Algorithmus zentral ist, der Burrows Wheeler Transformation. Ach ja, und wie beliebt bwa ist, kann an der Zahl der Zitierungen erkannt werden (>> 20.000) und daran, dass Konkurrenten es in Vergleichen aufführen.
Obschon beliebt war die Weiterentwicklung in den letzten Jahren schleppend und der Autor hat sich, insb. für das Mapping längerer reads der Entwicklung einer anderen Software, minimap2, verschrieben.
So weit so schade, bwa wäre nicht das erste Programm, dass nicht mehr weiter gepflegt wird und irgendwann auf der Müllhalde der Bioinformatik landet. Eine Zeitlang lies sich die Bemerkung auf der Versionsverwaltungsseite für bwa wie ein Abgesang auf das Programm. Seit Juli 2019 aber ist ein Nachfolgeprojekt angekündigt: bwa-mem2. Das ich das übersehen habe (und andere auch), mag an der Veröffentlichung[Vasimuddin et al.; 2019] liegen, die auf einem für die Bioinformatik wenig üblichen Kanal erschienen ist. Die Fortentwicklung fokussiert sich zwar nur auf den sog. ‘mem’-Teil den Programms (für sog. paired end reads), aber diese Anwendung ist ohnehin die Wichtigste und damit ist die Fokussierung verständlich.
Intel-Mitarbeiter greifen also das Heft auf und machen weiter. Prima! Insbesondere, dass eine freigiebige Lizenz gewählt wurde. Vor allem aber: Das Programm soll wesentlich schneller sein, als die bisherige Implementierung. 80%, das ist viel. Und wenn es auch nicht so gut ist, wie behauptet — ob sich der Benchmark als gut herausstellt, bleibt abzuwarten: Die gesparte Rechenzeit wird sich zusammenläppern: Große Kohortenstudien, Praktika, Anwendung in vielen kleineren Projekte und nicht zu vergessen, Wiederholungsläufe. Und so wird Softwarequalität auch zu einer Energiefrage … keine Frage, dass ich gut finde, wenn die Arbeit weitergeht!
Noch habe ich die Software nicht getestet, aber ich arbeite dran sie in dem build-framework, dass wir verwenden, zu unterstützen.
+++++++++++++
* Etwaig mitlesende BioinformatikerInnen/BiologInnen: Ich kann gerne mehr ins Detail gehen oder auch mal über spez. Algorithmen schreiben. Bei solchen Artikeln nehme ich mir aber die Freiheit kurzer Beschreibungen, die vielleicht Raum für Interpretation lassen. Nur damit das mal geklärt ist 😉
Kommentare (6)