bwa[Li and Durbin, 2009; Li and Durbin, 2010] ist ein weit verbreitetes Mapping-Programm für kurze sog. reads des next-generation-sequencing (NGS). Bei den reads, für die man bwa  nutzt, handelt es sich üblicherweise um DNA-Abschnitte von 50 bis 300 bp Länge. Und mit Mapping bezeichnet man den Prozess bei dem diese reads einem oder mehreren Orten in einem Referenzgenom zugeordnet werden*. Der Name des Programms bwa ist ein Akronym der Transformation, die für den Algorithmus zentral ist, der Burrows Wheeler Transformation. Ach ja, und wie beliebt bwa ist, kann an der Zahl der Zitierungen erkannt werden (>> 20.000) und daran, dass Konkurrenten es in Vergleichen aufführen.

Obschon beliebt war die Weiterentwicklung in den letzten Jahren schleppend und der Autor hat sich, insb. für das Mapping längerer reads der Entwicklung einer anderen Software, minimap2, verschrieben.

So weit so schade, bwa wäre nicht das erste Programm, dass nicht mehr weiter gepflegt wird und irgendwann auf der Müllhalde der Bioinformatik landet. Eine Zeitlang lies sich die Bemerkung auf der Versionsverwaltungsseite für bwa wie ein Abgesang auf das Programm. Seit Juli 2019 aber ist ein Nachfolgeprojekt angekündigt: bwa-mem2. Das ich das übersehen habe (und andere auch), mag an der Veröffentlichung[Vasimuddin et al.; 2019] liegen, die auf einem für die Bioinformatik wenig üblichen Kanal erschienen ist. Die Fortentwicklung fokussiert sich zwar nur auf den sog. ‘mem’-Teil den Programms (für sog. paired end reads), aber diese Anwendung ist ohnehin die Wichtigste und damit ist die Fokussierung verständlich.

Intel-Mitarbeiter greifen also das Heft auf und machen weiter. Prima! Insbesondere, dass eine freigiebige Lizenz gewählt wurde. Vor allem aber: Das Programm soll wesentlich schneller sein, als die bisherige Implementierung. 80%, das ist viel. Und wenn es auch nicht so gut ist, wie behauptet — ob sich der Benchmark als gut herausstellt, bleibt abzuwarten: Die gesparte Rechenzeit wird sich zusammenläppern: Große Kohortenstudien, Praktika, Anwendung in vielen kleineren Projekte und nicht zu vergessen, Wiederholungsläufe. Und so wird Softwarequalität auch zu einer Energiefrage … keine Frage, dass ich gut finde, wenn die Arbeit weitergeht!

Noch habe ich die Software nicht getestet, aber ich arbeite dran sie in dem build-framework, dass wir verwenden, zu unterstützen.

+++++++++++++

* Etwaig mitlesende BioinformatikerInnen/BiologInnen: Ich kann gerne mehr ins Detail gehen oder auch mal über spez. Algorithmen schreiben. Bei solchen Artikeln nehme ich mir aber die Freiheit kurzer Beschreibungen, die vielleicht Raum für Interpretation lassen. Nur damit das mal geklärt ist 😉

 

flattr this!

Kommentare (6)

  1. #1 tk8
    3. Januar 2020

    Nach meinem Biostudium wollte ich mehr Richtung Bioinformatik gehen, bin dann aber doch komplett in der Informatik hängen geblieben. Bis heute tut mir das Leid, wechseln ist aber nicht mehr so einfach ^^.

    Ich würde mich über mehr Artikel in diese Richtung sehr freuen !

  2. #2 Blaire
    4. Januar 2020

    “seid 2019” gelesen
    Und instant gemerkt dass ich hier falsch bin. Nebst penetranter Werbung.

    • #3 Christian Meesters
      5. Januar 2020

      Vielen Dank für den “freundlichen” Hinweis – ist korrigiert.

      Und instant gemerkt dass ich hier falsch bin. Nebst penetranter Werbung.

      Niemand zwingt Sie hier zu lesen und Ihren Browser nicht zu konfigurieren.

  3. #4 Blaire
    4. Januar 2020

    edit: gelöscht wg. Beleidigung

    • #5 Christian Meesters
      5. Januar 2020

      Ich werde mich gerne mit Ihren Anliegen auseinandersetzen: Sofern Sie freundlich kritisch bleiben. So aber behalte ich mir vor Ihre Kommentare von hier ab grundsätzlich zu moderieren, bevor ich sie freischalte.

  4. #6 rolak
    5. Januar 2020

    gelöscht wg.

    Nachvollziehbar.
    Dafür bleiben dann leider solche zeitlos schönen Perlen wie das dort zu lesen gewesene “Legasthenie (..) ließt sich auch nicht besser” dem staunenden Publikum verborgen…