Bioinformatische online Tools – ein Ärgernis

Wissenschaft ohne Internet ist kaum mehr denkbar – egal um welche Disziplin es geht. Dafür wurde es auch (u.a.) erfunden: Literaturdatenbanken, Sequenzdatenbanken, Genomdatenbanken, Ligandendatenbanken, sie alle nur Beispiele aus der Bio- bzw. Cheminformatik und sie sind selbstverständlich über einen Browser zugänglich. Gut gepflegte Datenbanken kennen und nutzen de facto alle BioinformatikerInnen, gleichgültig ob AnwenderIn oder EntwicklerIn.

Darüber hinaus gibt es aber auch Webanwendungen, Programme also, die nur über einen Browser zugänglich sind. Diese werden nicht selten von einzelnen Arbeitsgruppen irgendwo, irgendwie betrieben. Und da ist das Problem: Schließlich ist keine Arbeitsgruppe für die Ewigkeit gedacht. Eigentlich wollte ich euch hier eine ganze Reihe von Beispielen geben, aber meine unmittelbare Nachbarschaft hält bereits eine Webseite bereit mit diesem Bonmot:

Some of these servers are dying (nothing is eternal!).

Ja, klar! Wenigstens sagt es mal jemand ehrlich: Was heute noch läuft und eine shiny Webseite bietet, kann morgen schon nicht mehr verfügbar sein. Kein Problem angesichts öffentlichen Quellcodes? Einfach selber hosten? Na ja, erst mal muss sich jemand bereit erklären den verlassenen Kram anderer Leute zu hosten (was keinerlei Meriten bringt und folglich wissenschaftlich unattraktiv ist) und dann muss man den Quellcode auch haben – das ist nicht immer der Fall. Es muss auch eine Organisation geben, die für das Hosting einer Webseite Geld in die Hand nimmt. Eine Webseite kostet immer Geld. Ist es nur eine kleine virtuelle Maschine sind die Kosten vernachlässigbar. Ist dahinter eine größere Datenbank und wird die Webseite stark nachgefragt, können die Kosten durchaus gravierend sein.

Reproduzierbarkeit nur für “reiche” Institutionen?

Wie sehr die Dinge auf die Spitze getrieben werden können illustriert das Beispiel von RepBase sehr schön. Hierbei handelt es sich, nach eingenen Angaben um eine Datenbank repräsentativer repetetiver eukaryotischer Sequenzen. Man kann aber auch Software herunterladen, die natürlich nicht gepflegt ist oder diese dort laufen lassen. Repbase ist ein schönes Beispiel, denn es gab hierzu vor ein paar Jahren einen Kommentar in Nature. Wie heißt es dort so schön?

The whole system is rigged against infrastructure of any kind.

Sollte dann jedes Miniinstitut oder Arbeitsgruppe auf den Versuch setzen Infrastruktur in Form von Webapplikationen oder Webdatenbanken bereit zu stellen? Das ganze Portfolio – Datenbankdownload und Applikationen – ist bei RepBase nunmehr für ein “kleines Entgelt” zu haben, denn letztlich lief die Förderung aus. Wenn man sich durchklickt, landet man hier bei der Liste der subskribierenden Institute. Die Liste deutscher Institutionen ist übersichtlich:

das Max Planck Institut für Immunobiologie und Epigenetik
die Senckenberg Gesellschaft für Naturforschung und die
Universität Bielefeld

Forschende, die nicht dort forschen, aber auf die RepBase-Datenbank zugreifen oder dort eine Anwedung nutzen wollen, müssen entweder in die Tasche greifen (bzw. schlimmer noch das Geld über den üblichen bürokratischen Weg gezahlt sehen wollen) oder haben gelitten. Ach und für einige Anwendungen benötigt man die von RepBase gepflegte Datenbank – womit auch ein Nicht-Webtools betroffen sind. Aber das ist ein Spezialfall.

Die Liste der Sponsoren ist insgesamt eher übersichtlich und auf wenige westliche Länder beschränkt. Kurz: Für alle anderen sind Ergebnisse, die auf Nutzung von RepBase und ähnlichen Angeboten basieren schlicht nicht reproduzierbar, bzw. sie können diesen Service für ihre Forschung nicht nutzen. So sehr ich mit den Machern sympathisiere, weil sie ihre Finanzierung verloren haben und einen Weg gefunden haben weiterzumachen, so denke ich doch: Aus Sicht der “Institution Wissenschaft” sind Lehren zu ziehen. Die Kriterien ob eine Anwendung als Webtool veröffentlicht oder eine Datenbank auf diese Weise überhaupt veröffentlicht werden darf, sollte auch davon abhängen welche Institution dahintersteht beziehungsweise über welche Finanzmittel diese verfügt.

Das ewige Problem unbekannter Parameterisierung

Mit welchen Parametern ein Programm aufgerufen wird, wird in Veröffentlichungen selten genug erwähnt, dabei kann das den feinen Grad zwischen Reproduzierbarkeit oder der Vergeblichkeit jemals Ergebnisse reproduzieren zu können. Bei Webtools verschärft sich die Lage: Parameter sind entweder gar nicht erst einzugeben (Beispiel) oder sollten unmittelbar vom Anwender notiert werden – in irgendwelchen Logbucheinträgen kann man ja selber schlecht nachschauen.

Das verlinkte Beispiel hat obendrein noch ein weiteres Problem: In meiner Zeit als aufstrebender, naiver Jungwissenschaftler habe ich es zweimal angewendet^{[Müller et al., 2006; Meesters et al., 2009]}, bei der ersten Idee zu diesem Artikel war die Seite nicht erreichbar. Jetzt firmiert es nicht mehr unter “PipeAlign”, sondern unter “PipeAlign2”. Das zeigt zwar, dass diese eine Gruppe weiter an ihrem “Produkt” arbeitet und es pflegt, aber es illustriert auch ein recht häufiges Phänomen: Wissenschaftliche Webapplikationen geben in der Regel keine Auskunft über Version und Änderungshistorie (zur Bedeutung siehe auch mein vorheriger Artikel).

Es wird meist auch nur oberflächlich gereviewed: Wie eine Seite aufgebaut ist, ob sie Auskunft über die Einstellungen gibt, diese womöglich in einem Report für die Anwender dokumentiert oder welche Version einem Webwerkzeug zugrunde liegt – das wird nicht hinterfragt. Solche Pimperlitzchen finden nicht den Weg zur Checkliste der Reviewer.

Umöglichkeit der Einbettung in Workflows

Das wesentliche Problem hat mit Reproduzierbarkeit jedoch ehrlicherweise nichts zu tun, deshalb habe ich dieses Artikel nicht zum Teil der Serie zur Reproduzierbarkeitskrise gemacht. Viele Webtools stellen halt letztlich Arbeitsschritte dar, die man halt manuell ausführen muss. Sie sind nie dafür entworfen worden, dass jemand auf die Idee kommt wirklich viele Daten darauf zu schmeißen. Manuelle Ausführung ist zudem immer langsam im Vergleich mit automatisierter Ausführung. Man muss stets Daten “hochladen”, hoffe auf eine schnelle Ausführung auf einem unbekannten, wahrscheinlich untermotorisierten Server und abschließend Ergebnisse herunterladen.

Wie absurd das ist könnte das PipeAlign-Beispiel zeigen, wenn wir uns vorstellen im Zeitalter der Metagenomik in der abertausende Sequenzen miteinander verglichen werden. Doch schauen wir uns ein anders Beispiel an, wo es noch deutlicher wird: Stellen wir uns vor wir sind auf der Suche nach einem Wirkstoff, der einmal als Medikament wirken und helfen soll. Wir wollen im Computer bei der Suche anfangen, denn wir arbeiten in einer akademischen Institution und haben nicht die Millionen Euro, die es braucht um ein Screening (mit Roboterhilfe) mit Abermillionen von Substanzen zu probieren.

In den letzten Jahren interessante Entwicklungen, die auch im akademischen Bereich genutzt werden könn(t)en. Eigentlich sollten sie auch verwendet werden, denn sie sind vielversprechend. Doch sie können nicht verwendet werden, denn es handelt sich z. T. um Webapplikationen. Dort müsste man seine Substanzen “hochladen” und dann auf Beste hoffen. Designed für ein paar tausend Substanzen, wo unser Anspruch mitunter ist viele Millionen zu testen. Ein Ding der Unmöglichkeit. Vor allem, wenn das fragliche Werkzeug nicht mehr funktioniert (hier könnte eine sehr lange Liste von Links stehen).

Aber immer noch werden Webanwendungen publiziert. Ich bin angefangen, dass einschlägig zu kommentieren – wer sich auch immer engagieren mag beim öffentlichen Review ist herzlich dazu aufgefordert es gleichzutun (da kann ich auch noch besser und systematischer werden). Wenn man etwas Zeit investiert, fallen in der Regel ein paar Dinge auf, die man besser machen könnte. Wem gute Wissenschaft am Herzen liegt, kann mit solchen Kommentaren einen kleinen Beitrag leisten.

Gute Wissenschaft mit Webanwendungen …

… gibt es natürlich auch. Online fragen “Was habe ich eigentlich für eine Sequenz in der Hand?” ist im Zeitalter der Annotation ganzer Genome etwas weniger wichtig geworden. Aber immer noch sinnvoll und ein schneller Check, der viel Zeit spart. Vor allem ist das verlinkte NCBI eine Institution, die, ebenso wie sein europäischen Pendant, Infrastruktur aufbauen und unterhalten kann. Zumindest ist in beiden Fällen, alle immer mal wiederkehrenden Sparrunden zum Trotz, nicht damit zu rechnen, dass ihnen bald völlig die Puste ausgehen wird.

Vor allem auch Literaturrecherchen und andere Datenbanken, eingangs bereits erwähnt, sind in den Lebenswissenschaften ohne Webtools wie dieses kaum denkbar. Nein, Webtools haben ihre Berechtigung. Aber bitte nachdenken, bevor ihr etwas als Webanwendung publiziert. Ist es sinnvoll oder ohnehin bald wieder verschwunden?

Kommentare (4)

#1 Christian Meesters
22. September 2021

OT: hm, gleich einen Bug entdeckt: Das “featured image” ist im Beitrag nicht zu sehen, weil gelöscht. Aber die Titelseite kennt es. Q.E.D.
#2 rolak
22. September 2021

weil gelöscht

Nee: das ist noch quietschlebendig (und nicht quietschbunt), wurde via rss geliefert – nur wird es hier im (für mich sichtbaren Teil vom) Artikel nirgends eingebunden.
- #3 Christian Meesters
  22. September 2021
  
  genau das ist der Bug: Wenn es im Artikel gelöscht und nicht mehr angezeigt wird, hat es auf der Titelseite ebenso wenig wie Artikel etwas zu suchen. Vielleicht wäre nach ein paar Jahren mal ein Update keine schlechte Idee? Sonst kann man so einen Bug nicht mal anzeigen ohne ausgelacht zu werden.
#4 rolak
22. September 2021

Ach so, “im Artikel gelöscht”, da hatte ich aus dem ersten Kommentar etwas anderes verstanden – so langsam benötige ich wohl Einwort-Gehhilfen à la “ist im Beitrag nicht zu sehen, weil dort gelöscht”…

Bioinformatische online Tools – ein Ärgernis

Reproduzierbarkeit nur für “reiche” Institutionen?

Das ewige Problem unbekannter Parameterisierung

Umöglichkeit der Einbettung in Workflows

Gute Wissenschaft mit Webanwendungen …

Kommentare (4)

Über den Autor

Über das Blog

Neueste Beiträge

ScienceTwitter ist tot! – Ja und?

Einstellung der Kommentarfunktion

Zur Einstellung von Scienceblogs – und wie könnte(!) es weitergehen

Einige lernen es nie …

Container sind (auch k)eine Lösung!

Letzte Kommentare

Archive

rupture de caténaire via Email abbonieren

Kategorien

Bioinformatische online Tools – ein Ärgernis

Reproduzierbarkeit nur für “reiche” Institutionen?

Das ewige Problem unbekannter Parameterisierung

Umöglichkeit der Einbettung in Workflows

Gute Wissenschaft mit Webanwendungen …

Kommentare (4)

Abonnieren

Über den Autor

Über das Blog

Neueste Beiträge

ScienceTwitter ist tot! – Ja und?

Einstellung der Kommentarfunktion

Zur Einstellung von Scienceblogs – und wie könnte(!) es weitergehen

Einige lernen es nie …

Container sind (auch k)eine Lösung!

Letzte Kommentare

Archive

rupture de caténaire via Email abbonieren

Schlagwörter

Kategorien