Endlich geht es in der der kleinen Serie (1. Teil, 2. Teil) zu schauen, was zu wirklich nachhaltiger Data Science und damit auch Bioinformatik gehört – und warum das so ist. Zunächst aber: Was haben wir vor Augen haben, wenn wir wissenschaftliche Nachhaltigkeit so richtig weit fassen? Wir können Ziele einer idealen Datenanalyse und alles…

Pipeline oder nicht Pipeline? Im ersten Teil ging es darum zu charakterisieren was eine Pipeline in der Bioinformatik ist. Hoffentlich wurde klar, dass die Weise wie manche Datenanlyse Pipeline umgesetzt wird, extrem verschwenderisch sein kann. Wer erst einmal soweit ist zu erkennen, dass eine gegebene Pipeline heterogene Ressourcenanforderungen hat und das dies ernsthafte Performanceprobleme birgt,…

Was eine Pipeline ist, weiß jeder … In der Bioinformatik ist mit einer Pipeline die Folge von Programmen gemeint, die eine bestimmte Analyse mit mehreren Schritten ermöglichen. Hierbei kann die Pipeline, ganz analog einer “echten” auch verzweigt sein. Sprich: Pipelines entsprechen in Ihrer Abfolge von aufgerufenen Programmen stets gerichteten azyklischen Graphen — in der Regel…

UAP – die “Universal Analysis Pipeline” wurde bereits im letzten Jahr als “Pipeline”-Lösung für Bioinformatik-workflows publiziert[Kämpf et al., 2019]. Für diesen Artikel ist wichtig zu verstehen, dass genomorientierte Bioinformatik (wie auch nahezu alle komplexe Datenanalytik) nahezu jederzeit bedeutet eine Analyse in eine Vielzahl von Schritten (z. B. – Achtung starke Vereinfachung – Qualitätsbestimmung, Qualitätskontrolle, Mapping,…