rupture de caténaire

ScienceTwitter ist tot! – Ja und?

2023-11-11T15:42:28Z

Dass Twitter (oder X) nunmehr ein Tummelplatz für Verschwörungsideologen und Apologeten rechter Narrative geworden ist, ist weder neu noch überraschend. Es gab einen ganzen Podcast darüber (Zusammenfassung).

Auch die wissenschaftliche Gemeinschaft hat Twitter (fast) vollständig verlassen. Wie in wissenschaftlichen Kreisen üblich gibt es dazu Betrachtungen und sogar wissenschaftliche Studien. Ich selber habe nur kurz mit Twitter experimentiert und kurz nach Musks Übernahme dieses Experiment beendet. Wollte einfach nicht dieses Weltbild als “Kunde” stützen. Und weil die Idee einer gemeinschaftlichen Mikroblogplattform einen wie mich ohnehin sehr viel stärker anspricht, bin ich seitdem auf Mastodon zu finden.

Und so komme ich nicht umhin zu konstatieren: Da gefällt es mir nicht nur besser, für mich persönlich sind die wissenschaftlichen Kontakte auch sehr viel ergiebiger. Auch ist es ja nicht Elon Musk alleine, der es schafft, Communitys zu vergrätzen. Die Ankündigung des Verlagshaus Konradin diese Blogplattform dichtzumachen, hat ja auch für einigen Wirbel gesorgt. In der Folge entschlossen sich einige Co-BloggerInnen bei scilogs weiterzumachen, Florian Freistetter betreibt seine eigene Plattform. Ich fragte mich, ob ich nicht besser mit anderer Ausrichtung weiter machen mag. Außerdem: Wie verlässlich ist die Aussage, scienceblogs.de weiter betreiben zu wollen?

Mit meinen Artikeln muss ich jedenfalls kein Geld verdienen. Sie dienen als Aufrufe an andere Wissenschaftstreibende (und wenn das auch in Artikeln nicht so explizit geschrieben wurde – das Feedback einiger LeserInnen zeigte, dass es sehr wohl verstanden wurde. Danke dafür!) oder manchmal auch als Ventil für den alltäglichen Frust als Stabswissenschaftler (das haben ja die meisten von euch erkannt). Als Anti-Schwurbelschreiber war ich weniger gut, das liegt mir nicht so sehr. Und so komme ich hier auf Scienceblogs zum Schluss und bedanke mich für euer Engagement als KommentatorInnen – so richtig Tschüss habe ich ja nie gesagt.

Wer hier nun kommentieren will, wird enttäuscht. Ihr könnt es aber dennoch tun, und zwar im “Fediverse” (Begriffsklärung). Die Idee einer föderierten Plattform entspricht auch besser, der Idee der Wissenschaftsgemeinschaft als einer Gemeinschaft von offenen, kritikfähigen Menschen.

Noch etwas: Die neue Plattform ist keine “rein-Deutsche”. Ihr werdet dort auch Artikel in anderen Sprachen finden. Mein “Hallo, da bin ich“-Artikel habe ich bereits vor einiger Zeit in Englisch verfasst. Dennoch werdet ihr dort immer wieder auch deutschsprachige Artikel von mir – und wer weiß? – vielleicht in der Zukunft auch von anderen Ex-Sciencebloggern finden. Zumindest wird das Projekt spannend und interessante MitbloggerInnen wird es auch geben. Schaut mal rein, wenn es euch interessiert.

Einstellung der Kommentarfunktion

2023-01-25T20:11:19Z

Diesen Blog gibt es de facto nicht mehr. Mit Einstellung und doch Wiederöffnung der Plattform unter unklaren Umständen, lohnt es nicht mehr Zeit in die Pflege eines Blogs zu stecken. Stress und Hickhack um die Plattform haben zu Vernachlässigung geführt. Ich entschuldige mich bei allen LeserInnen und Lesern für die lange Zeit der Unklarheit.

Da nunmehr nur noch Spam zu erwarten ist, habe ich die Kommentarfunktion für alle Artikel abgestellt.

Falls dies jemand liest, bevor die Nachfolgeregelung bekannt wird: Ich bin im Fediverse aktiv, wir planen dort eine neue Blogplattform. Auf Mastodon erreicht man mich unter @rupdecat@fediscience.org .

Zur Einstellung von Scienceblogs – und wie könnte(!) es weitergehen

2022-10-31T08:02:39Z

Nunmehr ist es offiziell, nachdem Florian ja bereits im Kommentarstrang nebenan erzählt hatte: Die Plattform scienceblogs.de wird eingestellt! Und sind wir ehrlich, überraschend kann das für niemanden gewesen sein: Ein Verlag muss mit einem Angebot Gewinn machen und dies war offenbar nicht der Fall. Weil das so ist, habe ich ja bereits zweimal versucht auf Probleme hinzuweisen (hier und hier), vorsichtig, leisetreterisch und nicht effektiv. Eigentlich hatte ich im Sommerurlaub bereits ein Update verfasst, um noch deutlicher zu werden, doch Stress hielt mich sowohl von der Veröffentlichung einiger Artikel, als auch der Veröffentlichung eines weiteren Kommentars zur Plattform ab – die Erwartung, dass sich hier bald nichts mehr tut, tat ein Übriges.

Letztlich erschien mein Blog spät auf der Bühne. Scienceblogs.de war zu diesem Zeitpunkt die Vernachlässigung bereits anzusehen. Wir kennen das: Unternehmen vernachlässigen ihre Infrastruktur und Manager meinen dann, per Tarifmodell mit dem Flugzeug konkurrieren zu müssen (Bahn/Mehdorn). Oder das öffentlich-rechtliche Fernsehen, welches sich völlig in Angeboten verzettelt, im Hauptprogramm nur mehr das 60+-Klientel bedient und sich wundert, warum der Ruf nach all den Skandalen um Selbstbereicherung leidet. Jetzt schließt sich der Konradin-Verlag an, hat gutes Geld schlechtem hinterhergeworfen und wundert sich, warum das auf einer Plattform, die kaum jemand ohne AD-Blocker besucht, überhaupt nicht zündet (oder warum die vielen tracer nicht die erhofften Einnahmen bringen, oder, oder, oder …).

Ich habe mich für Scienceblogs.de entschieden, weil ich zumindest hoffte frei und manchmal auch mit Blick auf andere Forschende schreiben zu können. Ein wenig Dampf ablassen und zugleich konstruktiv sein. Die Naivität und Gleichgültigkeit der Betreiber hat mich dennoch überrascht. Doch dies ist nicht die Zeit für weiteres Lamento – die technisch-konzeptuellen Schwächen der “Plattform Scienceblogs” und die Vernachlässigung der Plattform insgesamt sind lehrreich. Jedoch darauf herumzureiten führt zu nichts.

Jedem Ende wohnt ein Anfang inne

Die Idee einer unabhängigen Blogplattform zur Wissenschaftskommunikation bleibt für mich attraktiv: Für Leserinnen und Leser, denn sie müssen sich nicht die Inhalte auf verschiedenen Seiten zusammensuchen. Und auch für Autorinnen und Autoren, denn sie müssen nicht ständig um Aufmerksamkeit buhlen – wenn der Nachbarblog in der eigenen Pause schreibt und die Aufmerksamkeit für die Plattform erhält, profitiert man gegenseitig. Außerdem verteilt eine Plattform die Verantwortung auf mehrere Schultern.

So eine Plattform gibt es bereits in ähnlicher Form: https://scilogs.spektrum.de . Sie ist jedoch etwas anders als scienceblogs. Mein Blog ist in der Pandemiezeit etwas abgedriftet, aber mein Wunsch ist es neben vermehrter Wissenschaftskommunikation auch konstruktive Wissenschaftskritik zu leisten. Irgendwie kann ich mir das bei scilogs nur schwer vorstellen – und wer garantiert eigentlich, dass die Muttergesellschaft nicht irgendwann merkt, dass die Blogplattform des Tochterunternehmens zu wenig Gewinn liefert?

Ich verfolge deshalb die Gründung einer von Autorinnen und Autoren selbstverwalteten Plattform. Diesmal mit Transparenz, zu den Kriterien für neue Blogs. Aufgeräumt soll sie sein und auch zu Gastbeiträgen häufiger einladen (viele wollen am Ende eines Projektes oder ihrer Doktorarbeit a) über “ihre” Wissenschaft erzählen und b) manchmal auch aus dem Nähkästchen plaudern – ohne einen eigenen Blog zu starten).

Klar, es gibt mittlerweile Podcasts und Vlogs. Obendrein liegen die famosen Anfangstage der Blogs und der Hype um Blogs längst hinter uns. Doch der Blog hat weiterhin eine Nische (ich bin überzeugt: eine häufig unterschätzte Nische!). Und neben all den institutionellen Selbstbeweihräucherungen und dem Wissenschaftsteil von Zeitungen gibt es auch genuines Interesse an Blogs zu wissenschaftlichen Themen. Denn Blogs können leicht verfasst werden und manche Ecke ausleuchten, wo sonst kein Licht für Aufmerksamkeit sorgt. Eine selbstverwaltete Plattform hat deshalb einen weiteren Vorteil, der nicht unerwähnt sein soll: Autorinnen und Autoren dürfen (fast) alles schreiben, sie sind frei von institutionellen Zwängen.

Leider gibt es aus der Runde der Scienceblogger:innen wenig positives Feedback. Das hat einen einfachen Grund: um im deutschen Recht einigermaßen bestehen zu können, braucht es für ein Internetportal einen Ansprechpartner. Und niemand (auch ich nicht), mag diesen als natürliche Person darstellen. Schließlich gilt es, Posten abzurechnen und Kommunikation zu betreiben. Also bleibt – Gewinnstreben ist nicht angedacht – ein Verein. Es braucht nicht nur Leute, die schreiben wollen, sondern auch Krämer (z.B. Kassenwarte), die für das Anliegen dieser Form der Wissenschaftskommunikation und Streitbarkeit brennen. Wenn ihr also Lust dazu habt oder jemanden kennt, die/der mitarbeiten mag: Bitte schreibt mir eine Mail. Das Zeitfenster wird nicht lange offen bleiben.

Und wenn es nicht gelingt? Vielleicht ende ich auch bei scilogs, vielleicht mache ich etwas Anderes. Wir werden sehen.

Einige lernen es nie …

2022-09-07T20:54:31Z

Didier Raoult, den wir hier im Blog auch schon kennenlernten, ist stolz:

Sous ma direction, l'IHU recevait 3M€ de crédits récurrents par an (2,2M€ de l'Etat, 500k€ de loyer de l'AP-HM, 500k€ des fondateurs et partenaires). Avec ce budget, je laisse une trésorerie de plus de 8M€ : voilà ce que l'IGAS/IGAENR appelle de la mauvaise gestion.

— Didier Raoult (@raoult_didier) September 7, 2022

ER hat Geld für seine Institution herangeschafft und Leistung erbracht! Dass unter seiner Leitung in seinem Institut viel Mist gebaut wurde, verschweigt er lieber. Gerade erst wurde über die Missstände erneut berichtet – amtlich hat er es auch. Da braucht es – so viel ist anzuerkennen – eine gewisse Chuzpe, für so viel öffentlichen Stolz.

Wieder ein Fall wissenschaftlichen Fehlverhaltens, Uneinsichtigkeit und aufgeblasenem Ego. Auf dieser Seite des Rheins finden wir auch so manche Kombination aus großer Klappe und wissenschaftlicher Fragwürdigkeit. So langsam frage ich mich, ob es eine Kausalkette gibt. Natürlich nicht einfach:

Das wäre zu billig. Und selten gerechtfertigt. Aber wie steht es um

im Sinne bayesscher Statistik? Und wie groß ist

Selber habe ich keinen Anlass, nachzuforschen. Ich frage für einen Freund!

Container sind (auch k)eine Lösung!

2022-08-16T12:55:22Z

Container sind in der Welt der IT keine neue Mode. Und so ist es vielleicht nicht verwunderlich, dass ich vor ein paar Wochen einen atemlosen Anruf eines freundlichen Professors erhielt, der mir mitteilte, wir (also meine Institution) bräuchten dringend eine Cloud mit einem bestimmten containerbasierten Workflowsystem. Anders sei reproduzierbare Bioinformatik heutzutage nicht mehr darstellbar! Und auch an HPC-Konferenzen geht das Thema Cloudcomputing nicht vorbei. Also, was sind eigentlich Container in der IT? Wo sind sie nützlich? Was bieten sie – und was nicht? Und führt am Thema Cloudcomputing im wissenschaftlichen Rechnen wirklich kein Weg vorbei? Schauen wir uns die Sache einmal an:

Was sind Container? Wozu braucht man sie?

Allüberall werden Container eingesetzt und vielen Admins hängt das Containerlied der Hersteller und Wissenschaftler – die unbedingt Container brauchen!!! – schon zum Hals raus. Denn wer hier nicht einstimmt, gilt als Innovationsverweigerer. Es ist also ein aufgeladenes Thema, wie so oft in der IT.

Container sind Virtualisieurngslösungen – das heißt, man kann alle mögliche Software, inklusive ganzer Betriebsysteme und ihre Paketbasis, in einen Container packen und den Container dann so ausführen als seien die darin verpackten Programme in einer anderen Umgebung als in dem System, von dem man sie gerade ausführt. Das große Versprechen ist denn auch der Abhängigkeitshölle, also dem Umstand, dass man für eine lauffähige Software tonnenweise andere Software installieren muss (in den jeweils richtigen Versionen; zur Bedeutung siehe auch hier), entkommen kann.

Container – bzw. “containerisierte” Anwendungen – werden im wissenschaftlichen Rechnen vor allem in Cloud-Umgebungen eingesetzt. In einer ziemlich spartanischen eingerichteten virtuellen Maschine einer Cloud kann man so einfach seine Software mitnehmen und ist sich sicher: Das wird laufen. Und Cloud-Computing ist in den Naturwissenschaften “in”. Mit steigender Tendenz werden die Begriffe “Cloud” und “bioinformatics” in der Metadatenbank wissenschaftlicher Veröffentlichungen, PubMed, denn auch mit Publikationen verknüpft:

Screenshot einer Suche mit den genannten Begriffen vom 14. August 2022.

Die Schlussfolgerung, dass sowohl Cloud-Computing als auch Container im lebenswissenschaftlichen Rechnen ebenso immer bedeutsamer werden, ist also zulässig. Insbesondere im angelsächsischen Raum, gibt es die Tendenz keine eigene Rechenleistung mehr vorzuhalten, sondern das Geld lieber Google, Amazon, Microsoft und anderen Cloud-Betreibern zu geben. Der Grund hierfür ist simple: Man glaubt so Geld sparen zu können. Weniger Personalkosten, Wartungskosten, Unterhaltskosten sind sicher ein guter Grund. Hierzulande setzt man eher auf föderale Lösungen.

Bezahlt wird nicht nur mit Geld

Wenn man nur mit Geld bezahlt werden müsste … Nein, auch mit Vertrauen muss man zahlen: Sind meine Daten in der Cloud sicher? Das ist doch die alles bestimmende Frage. Und ich bin froh, dass hierzulande das Auslagern in x-beliebige Clouds aus Datenschutzgründen nicht zulässig ist, vor allem bei humangenetischen Daten ist es nicht geraten bzw. verboten, außerhalb der EU derartige Daten zu speichern. Geldmittelgeber sehen auch die Anlage von Drittmitteln in Anbetracht existierender föderaler Infrastruktur für wissenschaftliches Rechnen nicht gerne. Misstrauen ist ohnehin angebracht.

Es geht hier aber nicht im Kern um Cloud-Computing. Das ist nur ein häufiger Anwendungsfall für Container. Container sind auch sonst praktisch, denn sie bringen ihr eigenes Userland mit (man kann also recht vertraut mit ihnen arbeiten) und in puncto Sicherheit gibt es auch eine Hoffnung, die sich mit ihnen verbindet: läuft ein Container auf einem (potentiell verwundbaren) (Web-)Server und eine Attake ist erfolgreich, so bleibt der Angreifer in dem Container gefangen und kann nicht heraus. Diese Sicherheitsebene fehlt ohne Container.

Letztlich jedoch kommt es bei Containern auch darauf an, wer Urheber ist und ob dieser vertrauenswürdig ist. Installationsframeworks (easybuild, spack etc.) und Paketverwaltungen der großen Distributoren (Ubuntu, Debian, SuSe, etc.) haben dieses Problem gelöst durch verschiedene Maßnahmen (signierte Pakete, Checksummen für jede Abhängigkeit). Die Situation bei Containern ist ein wenig anders. Die großen Hersteller bieten zwar signierte Basis-Images an, doch diesen fehlen bestimmte Dienste. Also müssen Anwender und Administratoren oft andere Wege gehen.

Eine Möglichkeit ist ein Continous Integration und Deployment-System (CI/CD) wie z. B. Jenkins zu nehmen. Die Idee: bei Erscheinen eines neuen Softwarerelease wird automatisch ein neues Image generiert. Das “Ausrollen” müssen Admins nur noch per Mausklick bestätigen. Damit jedoch bezahlt man entweder für ein fertiges, professionelles System oder – im akademischen Fall weitaus häufiger – man bastelt selber und bezahlt mit der Zeit, die man besser mit Forschung verbringen könnte. CI/CD-Systeme sind ohnehin keine Selbstläufer und produzieren einen gewissen Aufwand. Im wissenschaftlichen Rechnen werden Container folglich oft handgeklöppelt. Der Umstand, dass es Containersysteme gibt, die es ebenfalls erlauben signiert zu werden, hilft nicht weiter, denn wo der Laie Container bastelt, wird darauf sehr häufig verzichtet.

Und auch die Sache mit dem Entkommen aus Abhängigkeitshölle stellt sich bei vielen Containern auch nicht so einfach dar, wie man zunächst denken könnte. Wer im Container nur auf Pakete eines Providers angewiesen ist, ist fein raus. Wissenschaftliche Anwendungen bringen jedoch häufig versionsspezifische Abhängigkeiten zu anderen wissenschaftlichen Anwendungen oder Bibliotheken mit – viele! Da wird das Bauen von Hand nicht viel einfacher, als es unabhängig vom Container mittels Installationsframework zu versuchen.

Und das Handklöppeln von Containern bedeutet auch, dass im wissenschaftlichen Zusammenhang verwendete Software oftmals nur über Trampelpfade und inoffizielle Quellen zu erhalten ist. Dass die Reproduzierbarkeitskrise in den Neurowissenschaften (und Psychologie sowie Psychatrie) besonders ausgeprägt ist, ist bekannt. Die Gründe auch (Studiendesign, Jagd auf bessere p-Werte, etc. etc. vieles wurde schon lange auf Scienceblogs diskutiert). Was hinzu kommt ist, nachdem ich jahrelange Erfahrung mit dem Feld auf der Softwareseite habe, ist der Umgang mit Software und Daten (teils hier im Blog bereits beschrieben). Ihr kennt bestimmt alle die Geschichte vom toten Lachs, dessen fMRI-Daten analysiert wurden und schön interpretierbare Daten lieferten – wegen multiplen Testens auf verrauschen Daten. Nun, die Interpretation von Daten ist tägliches wissenschaftliches Brot und die Software, die zur Analyse von MRI-Daten beliebt ist, ist ein Problem an sich. Als, nicht zum ersten Mal, eine ganze Community das Installationsproblem nicht lösen konnte und Kunden warteten, habe ich die Entwickler angeschrieben. Sie konnten nicht weiterhelfen, wollten ohnehin ihr Installationsschema komplett umstellen, weil sie selber nicht mehr durchblickten (die vorgeschlagene Lösung ließ mich in die Tischkante beißen, aber das ist eine andere Geschichte). Und freundlicherweise erhielt ich diese Antwort:

I’m very sorry to hear you’re having problems compiling FSL. As an interim solution, I can provide you with a Singularity image that will correctly install FSL6.0.4

So haben wir es dann gemacht. Schön ist das nicht, aber es funktionierte.

Immer häufiger wird wissenschaftliche Software nur mehr in Containerform angeboten. Da bekommt das “but it runs on my system!”-Argument, mit dem Entwickler den Report von Problemen gerne abwiegeln (weil: “Bei mir funktioniert es!1!!11!!”), eine ganz neue Qualität. Eine wirkliche Lösung ist das jedoch nicht, denn man muss zum Teil manch forensische Energie reinstecken, um herauszubekommen, welche Bibliotheken und welche Versionen denn im Container stecken. Klar, wenn ein Container gegeben ist, kann man den Container mit den Daten archivieren und ist sich “sicher”, dass die Daten damit für alle Zeiten reproduzierbar bleiben (vorausgesetzt, der Container ist auch in ferner Zukunft lauffähig und wir lassen all die lästigen Argumente über sich verändernde CPU-Befehlssätze außer acht), oder? Na, wer sagt einem, dass Version X einer Software im ersten Container dieselbe Software ist, wie die Software X derselben Software in einem anderen Container? (Wenn die Checksummen unterschiedlich sind und die Dinger nicht signiert sind, kann das tausendundeine Ursache haben.) Und dass die Versionierung überhaupt stimmig ist? Wie es um derartige Versprechen bestellt ist, muss ich nicht mehr beschreiben. Fleißige Mitleser wissen Bescheid, oder?

Und noch eine Überlegung zu der Frage, womit bezahlt wird. Schauen wir uns kurz folgenden Vergleich an:

bei einer nativ installierten Anwendung erhalte ich eine Antwort auf die Hilfeanfrage (also so was wie $ time cmd --help) in ungefähr 1-4 Sekunden (hängt ab von Caches, Reponsivität des Filesystems, größe der Anwendung und was diese sonst noch so macht, bis sie eine Antwort ausspuckt, ab)
bei einer in einem Singularity-Container eingepackten Anwendung erhalte ich dieselbe Antwort in 70-80 Sekunden (weil der Container erst in eine sog. “Sandbox” entpackt wird)

Eine derartige Containeranwendung zu starten, bringt also einen gewissen Overhead mit sich. Bei parallelen Anwendungen fällt dieser Overhead mit der Zahl der reservierten Kerne ins Gewicht – Teile des Computers, die däumchendrehend Strom verbrauchen. Also eine Zahl irgendwo zwischen 2 und ein paar Tausend. Da die immer gleichen Anwendungen viele Tausend mal eingesetzt werden und Container für tausende Anwendungen existieren, kommt man so leicht auf Millionen verschwendeter CPU-Stunden. Keine Kleinigkeit in diesen Zeiten, auch wenn die Performance der Anwendung nach dem Start nicht schlechter ist als die einer nativen Anwendung (was aber keineswegs garantiert ist).

Wie steht es nun um das letzte Versprechen der Container-Jünger? Das, das da lautet: “Wir packen die Anwendung (ggf. sogar mit Daten) in einen Container, dann können wir unsere Ergebnisse bis in alle Zeiten reproduzieren!” Solcherlei Aussagen (und man hört sie gelegentlich, wenn auch immer wieder anders formuliert) lassen mich manchmal sprachlos zurück. Richtig ist, dass containerisierte Anwendungen leichter portierbar sind und wenn die verwendeten Algorithmen deterministisch sind (ihr Ergebnis also beispielsweise nicht von Zufallskomponenten abhängt) ist das Einpacken in Container eine gute Möglichkeit zu archivieren und zu portieren, kurz: durchaus ein Schritt zu größerer Reproduzierbarkeit.

Leider weiß so ein Container auch nicht, welches die neuesten Moden der CPU-Herstellen in 10 Jahren sein werden. Und auch prinzipiell deterministische Algorithmen leiden manchmal unter unterschiedlicher Genauigkeit der Prozessoren und dann macht die mathematische Fehlerfortpflanzung einen Strich durch die Rechnung (sorry: pun intended). Und auch von solchen Details abgesehen: ohne ausreichende Metadaten (z. B. welche Parameter wurden warum für welche Daten gewählt) ist es mit der Reproduzierbarkeit einfach nicht weit bestellt. Auch die Anwendbarkeit leidet manchmal, wenn im Container Voreinstellungen hart verdrahtet und gegenüber den Anwendern nicht transparent dokumentiert sind.

Fazit

Container sind eine großartige Technologie, auch für wissenschaftliche Anwendungen überaus nützlich und manchmal können wir in der Forschung nicht darauf verzichten. Das hohe Lied auf die Container klingt dennoch manchmal schief: die Fürsprecher der stärkeren Containerisierung für wissenschaftliches Rechnen im Allgemeinen sollten sich gelegentlich mal anschauen, ob ihre Argumente überall und uneingeschränkt gelten. Und wenn nicht: tief durchatmen, es gibt hier und da auch andere Möglichkeiten. Doch wenn es ein Container sein soll und die Anwendung liefert solide Ergebnisse? So sei es! Geht auch auch ohne Rumreiten auf Sicherheit und Reproduzierbarkeit und die Behauptung, dass Container allein selig machend sind.

“Expertisen” im MWGFD – ein Nachtrag

2022-08-17T07:14:53Z

Vor einer Weile habe ich mir erlaubt, mal zusammenzufassen, was so an wissenschaftlicher Expertise im (un-)demokratischen Mediziner-und-Wissenschaftlerverein MWGFD in Bezug auf ihren Gründungszweck – die “Coronaververschwörung” – vorhanden ist. Spoiler für diejenigen, die den Beitrag nicht kennen: nicht viel.

Der in “Gesundheitscheck” erschiene Beitrag über die veränderte Mitgliederbasis, ist Grund genug noch einmal hinzuschauen, denn das Problem ist nach wie vor die Inanspruchnahme akademischer Glaubwürdigkeit. Insbesondere Kommentator “Emil” meint:

Der “Querdenker” Verein ist fachlich gut besetzt. Das ist wichtig in diesen Zeiten in der es eine Expertenschwemme gibt. Es gilt vor allem Soziologen und Psychologen(Sozial, Kognition, etc.) zu gewinnen, …

Das mag sein, schließlich wurde auch beim Sachverständigenausschuss nach § 5 des Infektionsschutzgesetzes zur Evaluation der Coronamaßnamen auf eine fachlich gut und divers aufgestellte Expertenrunde geachtet (ob das gelungen ist, ob es was gebracht hat, ob der Parteiproporz der Effizienz des Gremiums eher abträglich war, etc. – all dies ist eine andere Frage). Einem Verein jedoch, der “Wissenschaft” und “Medizin” im Namen führt, steht es nicht schlecht zu Gesicht, wenn er breit aufgestellt ist: [edit – 17.08.22]auch weil Nicht-Experte-Sein und Unsinn verbreiten eine schlechte Kobination ist[/edit]. Schauen wir uns die Sache also wieder näher an, dabei können wir die Leute vom letzten Beitrag ruhig weglassen – und nicht vergessen, hier geht es vor allem um ihre Expertise, welche die Mitglieder in ihrem jeweiligen Fachgebiet denn mitbringen. Also:

Dr. med. Elke Austenat, Fachärztin für Innere Medizin, Diabetologin, Initiatorin der Bürgerinitiative „Evidenz der Vernunft“ – sie listet auf ihrer Homepage etliche Publikationen, darunter manche diabelologisch-therapeutische Beobachtungsmitteilung auf Kongressen, jedoch keinerlei Fachpublikation in einer medizinischen Fachzeitschrift^†. Dafür jedoch auch Bücher, u. a. “Das unfassbare Virus“, beworben mit

Sie dürfen erwarten, dass ich qualifiziert genug bin, worum mich der deutsche Star-Virologe Prof. Dr. Drosten bittet: Meine Entscheidungen auf der Basis eines mitdenken Bürgers zu treffen. An diesem „Mitdenken“ würde ich gern viele Menschen teilhaben lassen. Der Leser muss mitdenken wollen, um die Zusammenhänge verstehen zu lernen und sich eine fundierte Meinung zum Wohle seiner selbst, seiner Familie, aber auch des sozialen Miteinander der Menschen national wie international zu bilden. Ich hoffe dazu betragen zu können.
Prof. Dr. Werner Bergholz, ehem. Professor of Electrical Engineering, Experte für Qualitäts- und Risikomanagement, Lehrbeauftragter an der Jacobs University Bremen – u. a. auch Sachverständiger für die Afd (na, da haben sich dann wohl zwei gefunden). In PubMed (der Metadatenbank der Mediziner und Lebenwissenschaftler) ist naturgemäß von ihm nichts zu finden, dafür kennt Google-Scholar ein paar wenige Publikationen (u. a. “Köperverletzung durch Masken” – zwar keine wissenschaftliche Fachpublikation, jedoch hübsch tendenziös, wie ihre wissenschaftliches Vorbilder?).
Dr. med. Thomas Binder, Kardiologe, Vorstand Aletheia – Medizin und Wissenschaft für Verhältnismäßigkeit – es ist zugegebenermaßen schwer, mit diesem Namen in der Datenbank zu suchen, zumal keine institutionelle Adresse vorliegt. Aber vielleicht hat er tatsächlich medizinisch einschlägig publiziert^†.
Prof. Dr. med. Arne Burkhardt, Facharzt für Pathologie – tatsächlich: 3 Publikationen in der Datenbank! (Immer wieder verwunderlich für welche “Forschungsleistung” man eine medizinische Professur erlangen kann!) und auch allgemeinere Publikationen und ein einschlägiges Youtube-Video (wiewohl dies keine wissenschaftliche Leistung ist, um die es hier ja primär zur Einschätzung von Qualitfikation gehen soll – aber wir wollen ja die virologisch-epidemiologische Expertise einschätzen können).
Dr. Andrea Christidis, Psychologin, Gutachterin in Fragen zu forensischer Psychologie – (offenbar streitbar, aber das ist hier zweitrangig), keine medizinischen Publikationen, auch die eigene Homepage gibt keinerlei Hinweis auf fachliche Publikationen, jedoch eine erkennbare Neigung Bhakischen “Wahrheiten” anzuhängen.
Dr. med. univ. Dr. phil. Christian Fiala, Facharzt für Frauenheilkunde und Geburtshilfe, Arzt für Allgemeinmedizin, Tropenmedizin, Wien – interessanter Hintergrund, mit wirklich beeindruckender Publikationstätigkeit in der Gynäkologie und Geburtshilfe. Der Umstand, dass er Impf”skeptiker” ist, wäre im Zusammenhang mit der MWGFD nicht erwähnenswert, wer allerdings HI-Virus-Leugnern zuarbeitet, zeigt, dass seine virologischen Bemerkungen schon länger mit Vorsicht genossen werden sollten.
Dr. med. Heinrich Fiechtner, Hämatologe und Internistischer Onkologe – auch er hat es (im Zusammenhang mit ehemaliger AfD-Angehörigkeit) zu einem Wikipediaeintrag gebracht. Zumindest eine Co-Autorschaft bei einer medizinischen Facharbeit (vielleicht auch mehr, die Suchen sind nicht immer eindeutig^†).
Dr. med. Margareta Griesz-Brisson, Neurologin – als Maskengegnerin aufgefallen, als Forscherin nicht^†.
Dr. Dr. Renate Holzeisen, Rechtsanwältin, Bozen – zwar Doppeldoktor und einschlägig in “Sachen Corona” umtriebig (einfach die Suchmaschine eures Vertrauens fragen), aber das Netz verriet mir nicht, welche juristischen Publikationen sie geleistet hat^†.
Dr. med. univ. Maria Hubmer-Mogg, Ärztin, Wien – ebenfalls umtriebig in Sachen Impfgegnerschaft, jedoch ohne zu findenden Eindruck in der Fachwelt (also PubMed zeigt nichts an^†).
Prof. Dr. rer. hum. biol. Ulrike Kämmerer, Humanbiologin, Universitätsklinikum Würzburg – hier im Blog auch schon aufgetaucht, durchaus eine respektable Publikationsliste (interessanter allerdings zu sehen mit PubPeer-Browserplugin, denn ein paar ihrer Publikationen sind dort als problematisch oder aufgebauscht gekennzeichnet), wenngleich keine Arbeiten mit Bezug auf Virologie / Epidemiologie.
Prof. Dr. Christian Kreiß, Volkswirtschaftler, Hochschule Aalen – die Hochschule listet keine Publikationen, Wikipedia schon – eher wenig für eine Professur^†
Prof. Dr. rer. nat. Ulrich Kutschera, Evolutionsbiologe und Physiologe, Scientific Collaborator, Stanford-CA (USA) & AK Evolutionsbiologie, Freiburg i.Br. – Herr Kutschera ist natürlich eine bekannte Figure. Hier auf SB wurde schon viel über ihn geschrieben, kein Zeichen für wissenschaftliche Glaubwürdigkeit. Sein Wikipediaeintrag verrät unbedarften LeserInnen mehr. Dennoch definitiv ein enormes wissenschaftliches Œuvre, wenngleich nie aufgefallen als virologisch, epidemiologisch forschender.
Prof. Dr. med. Walter Lang, Pathologe – die Seite seiner Praxis führt keine Publikationen auf.
Dr. med. Konstantina Rösch, Allgemeinärztin – gekündigt im LKH Graz, offenbar Ärztin ohne Berufserlaubnis – auch eine Leistung, aber wissenschaftliche Publikationen scheint es keine zu geben^†.
Univ.-Prof. Dr. med. Dr. rer. nat. M. Sc. Christian Schubert, Klinik für Medizinische Psychologie, Medizinische Universität Innsbruck – ein Psychologe, dessen Internetseite freundlicherweise alle Publikationen aufführt und zugleich erkennen lässt, dass er ab und an gerne schwurbelt. Immerhin: eine ansehnliche Liste von Publikationen. Nichts in Zusammenhang mit der Pandemie^†.
Prof. Dr. Martin Schwab, Lehrstuhl für Bürgerliches Recht, Verfahrens- und Unternehmensrecht, Universität Bielefeld – hier gibt es eine interessante Universitätshomepage: es werden keine wissenschaftlichen Publikationen aufgeführt, sehr wohl aber eine Stellungnahme mit dem Titel “Meinungsfreiheit und wissenschaftlicher Diskurs in der Corona-Krise” (Untertitel für die Feinschmecker: “Zugleich in Sachen Transparency International Deutschland: Eine Erwiderung auf den Bericht der Untersuchungskommission im Fall Wolfgang Wodarg”). Hinzukommt eine Stellungnahme zu einer Erklärung des AstA der Universität.
Univ.-Prof. Dr. med. Andreas Sönnichsen, Abteilung für Allgemeinmedizin und Familienmedizin, Medizinische Universität Wien, bis Januar 2021 Vorsitzender des Deutschen Netzwerks Evidenzbasierte Medizin – auch er schon nebenan thematisiert; nicht unumstritten, aber immerhin mit wissenschaftlichen Œuvre.
Prof. Dr. phil. Wolf-D. Stelzner, Diplom-Psychologe – wissenschaftliche Publikationen sind nicht erkennbar^†
Priv. Doz. Dr. med. Josef Thoma, HNO-Arzt – unklar, ob je wissenschaftlich publiziert wurde^†
Prof. Dr. Hans-Werner Vohr, Immunologie und Immuntoxikologie, Universität Düsseldorf – Rubikon hat einen Eintrag zu ihm(!). Seine Homepage führt eine nette Liste von Publikationen auf (sie endet 2011). Update – Korrektur, habe Dozent nicht als Prof. verstanden: ~~Vor allem sagt seine Homepage, im Gegensatz zu dem hier aufgeführten “Professor”, dass er nie einer war.~~ Den aufmerksamen LeserInnen dürfte nicht entgangen sein, dass eine leichte Überhöhung des akademischen Status auf der Seite des MWGFD kein Einzelfall ist.
Prof. Dr. Dr. Daniel von Wachter, Professor für Philosophie an der Internationalen Akademie für Philosophie im Fürstentum Liechtenstein – auch er in letzter Zeit einschlägig bekannt geworden, jedoch Veröffentlichungen? Etliche, wie es sich für Philosophen gehört, durchgängig ohne Datenerhebung.

Damit kommen wir ans Ende der Liste derjenigen mit Doktorgrad. Mir geht es, spröder Wissenschaftler, der manchmal in mir durchkommt und so werden Tabellen geschrieben, ja darum, welchen wissenschaftlichen Hintergrund die Mitglieder haben. Schließlich ist es ein Verein von Medizinern und Wissenschaftlern.

Was folgt aus dem Gedöns?

Dass der MWGFD – zur Erinnerung “Mediziner und Wissenschaftler für Gesundheit, Freiheit und Demokratie” – zwar aus Überzeugungstätern besteht, aber zu Freiheit und Demokratie eher durch (Über-)dehnen von Tatsachen und Diffamierung von Dritten gelangen will, ist nichts Neues. Die Pandemie war offenbar auch ein Reiz für viele Klingelschild-Doktoren und -Professoren ihre “Expertise einzubringen” (und besonders viel nicht-medizinische Expertise ist nun auch nicht dabei). Und dabei ist eben ein Teil für Radikalisierung anfällig. Das Beispiel MWGFD und die “Ärzte für Aufklärung” (s. auch hier) lehrt, dass einige davon eben auch meinen über Expertise zu verfügen, obwohl sie nie wissenschaftlich gearbeitet haben. Oder vielleicht deswegen? Das Warnen vor der häufig miserablen Qualität medizinischer Doktorarbeiten ist schließlich alt (Übersichtslink). Getan hat sich nichts, trotz schöner Absichtserklärungen. Zumindest dürften die letzten Jahre gezeigt haben, dass die Arbeit zur Verbesserung medizinischer Dissertationen einen Sinn hat.

Wer nur ein Semester lang etwas Statistik zwischen viel angewandter Medizin lernt, wie in Deutschland üblich (Beispiel), meint leichter, dass das Bild der eigenen Praxis repräsentativ ist. Wer häufig Besuch von Pharmavertretern erhielt, meint irgendwann, dass Wissenschaft abseits der Klinik so funktioniert wie durch die Werbung suggeriert. Und das Publikum? Das vertraut seinen Ärzten und das ist ja meist auch gut so.

† “Nichts gefunden” bedeutet nicht, dass gar nichts da ist, lediglich, dass die Datenbankabfragen keine oder keine eindeutigen Literaturfunde lieferten. Kurz: Literaturrecherchen können fehlerhaft sein. Korrekturen bringe ich gerne ein

CO2-Fang auf Zügen?!

2022-07-23T17:31:45Z

Die Idee ist simpel: jeden Zug mit ein paar Wagen zusätzlich ausstatten, auf denen große Luftsauger und eine Apparatur für direct air capture (DAC) installiert sind. Dies ist die noch junge Technologie, mit der man CO₂-Moleküle direkt aus der Luft auffangen kann. Und an bestimmten (Güter-)Bahnhöfen kann, so die Autoren einer Publikation in der Zeitschrift Joule, CO₂ abgepumpt und in große Tanks oder Pipelines überführt werden. Danach kann es von der Industrie gebraucht werden, beispielsweise zur Produktion von synthetischen Kerosin. Oder das Kohlendioxid kann gleich im Untergrund “verklappt” werden.

Diese Art des mobilen CO₂-Fangs ist, wollen wir den Autoren glauben, vielversprechend: Ein Zug mit einem solchen “Klimawaggon” könnte jedes Jahr 6000 Tonnen CO₂ aus der Atmosphäre ziehen. Das ist ungefähr so viel, wie 2000 benzingetriebene Autos jährlich ausstoßen.

Würde diese Technologie im großen Maßstab eingesetzt, kann der Preis auf 50 Dollar sinken. Das ist geringer als der europäische CO₂-Preis von beinahe bald 55-65 Euro. Ein Geschäftsmodell ist also in Reichweite. Gemäß Prognose der Autoren können 2030 bereits eine halbe Gigatonne CO₂ aus der Atmosphäre holen, und dann 2,9 Gigatonnen 20 Jahre später. Zum Vergleich: 2019 wurden weltweit fast 37 Gigatonnen in die Luft geblasen.

Extra Waggon am Güterzug

Persönlich finde ich die Idee interessant und womöglich braucht DAC auch mehr Aufmerksamkeit. Wir schaffen es schließlich nicht, der Zerstörung unseres Planeten Einhalt zu gebieten. Das wäre einfacher und womöglich auch schöner. Doch wie dem auch sei: auch diese Anwendung von DAC lässt einen zweifeln.

Denn technisch interessant ist der Artikel vor allem auch wegen des Vorschlags, eine elektrochemische Variante des DAC zu verwenden. Damit kann man potenziell zwar Energie gegenüber rein elektrischem DAC sparen, insgesamt jedoch ist der Artikel wenig mehr als eine fixe Idee (ehrlicherweise möchte ich nicht verschweigen, dass es detaillierte technische Anhänge und Berechnungsgrundlagen gibt, auch wenn der Verdacht weiter nagt, dass die Annahmen reichlich optimistisch sind). Auch ist eine feste Installation wohl einfacher zu realisieren, nicht zuletzt, weil die enorme Infrastruktur an Bahnhöfen fehlt. Doch die Autoren nennen ein paar gute Argumente für ihre Idee:

Not only will there be no direct (or indirect) costs associated with acquiring, preparing, and maintaining sizable swaths of land but also no sprawling industrial-looking DAC installations to permanently mar our landscapes or cityscapes and no “not in my neighborhood” impediments to broad deployment.

Damit haben sie wohl leider einen Punkt: noch mehr Industrieanlagen, um das Ergebnis bisherige Industrieanlagen aufzuräumen, kann keine Lösung darstellen. Und “Not in my backyard / neighborhood”-Haltungen sind bedauerlicherweise weitverbreitet. Nicht zuletzt gibt es im Land der unbegrenzten Möglichkeiten immer noch zu viel Widerstand gegen jegliche CO₂-Vermeidung. Und hierzulande ist der transformative Prozess zu nachhaltiger Wirtschaft noch gar nicht richtig angefangen. Gegen einen Waggon extra wird der Widerstand möglicherweise kleiner ausfallen. So weit sind wir schon gekommen.

Oh, leever Jott, jev uns Wasser

2022-07-15T20:47:59Z

Ehedem litt Kölle unter einer Dürre, inzwischen weite Teile Deutschlands und der Welt – scheinbar dauerhaft. Es ist Zeit, lange gehegte Gedanken, endlich in den Blog zu bringen:

Ich erinnere mich noch gut, als Kind in Feuchtwiesen am linken Niederrhein zu spielen und dabei Amphibien und Insekten kennenzulernen. Teilweise habe ich diese Tiere nie wieder gesehen, ihre Namen nie gelernt. Wahrscheinlich gehörte ich zu den letzten Kindern, die überhaupt dort spielen konnten. Denn kurz nach meinen Sommern, in dem die Feuchtwiesen noch feucht waren, wurde Drainagen gelegt – eine Straße sollte gebaut werden.

Später dann, am Ende meiner Schulzeit, sollte ich einen größeren Aufsatz schreiben, eine Art Projektarbeit mit eigener Recherche. Thema war unser Fluss und sein ökologischer Zustand. Nette Leute in der Stadtverwaltung überließen mir die Kopie eines Gutachtens, das davor warnte, die Aue im Stadtgebiet zum Baugebiet auszuweisen. Es gehörte zu den vielen unbeachteten Umweltgutachten dieser Republik. Und das ist nicht verwunderlich, denn die Leute, die sich nunmehr über die Hochwassergefahr und feuchte Keller beschwerten, waren lokale “Magnaten”. Dennoch war meine Arbeit für mich nicht vergebens und langfristig lehrreich: vor allem lernte ich die weitreichende Kraft des “Filz” kennen – das kann im Leben ja nicht früh genug verstehen.

Und was haben diese Beispiele mit der heutigen Dürresituation zu tun?

Egal ob Flachland oder hügeliges Land (mit starker Vereinfachung ist das, sieht man vom Watt im Norden und einem alpinen Streifen im Süden ab, Deutschland), unsere Vorfahren haben sich in den letzten Jahrhunderten vornehmlich mit Drainagen und dem Ziehen von Gräben beschäftigt. Der Unterschied zwischen Hügeln und Flachland ist lediglich der, dass in den hügeligen Gebieten mit aller Kraft versucht wurde, Wasser schnell zu Tal zu führen, während in den flachen Gefilden Drainagen vorherrschen.

Wasser schießt zu Tal – Aufnahmen aus dem Frühjahr dieses Jahres (links: Rheinhessen, rechts: Nordhessen südlich von Kassel). Beide Stellen sind inzwischen trocken. Der Blog hätte an dieser Stelle mit vielen Fotos betonierter Gräben mitten in der Landschaft gefüllt werden können – die Sammlung des Autors ist inzwischen eindrucksvoll.

Das Rad zurückdrehen?

Bei zu wenig Regen haben all die Maßnahmen auch weiterhin den gewünschten Effekt: Das wenige Wasser wird unverzüglich abgeführt und den Flüssen zugeführt. Und so manifestiert sich auch die sichtbare Trockenheit schneller. Eine Konsequenz? Kein Obstanbau mehr ohne Bewässerung:

Bewässerunginstallationen, wie sie überall in Rheinhessen anzutreffen sind, inkl. zukünftigen Mikroplastiks durch die Bepflanzung, aber das ist ein anderes Thema. Die unterirdischen Rohrleitungen, welche das Wasser zuführen, sind noch sehr viel beeindruckender. Die hier gezeigte Fläche liegt ca. 600-700 m vom Rhein entfernt. Hinterm Deich doch eigentlich im Bereich des vom Rhein gespeisten Grundwassers.

Landwirte klagen über zu geringe Bodenfeuchte (zu Recht) und Ernteausfälle. Wir alle ächzen an mehr und mehr Tagen im Jahr über die Hitze. Auch Tote sind zu beklagen. Und auf der anderen Seite sehen wir uns einem immer stärker werdenden Starkregenrisiko ausgesetzt. Die möglichen Konsequenzen stehen uns alle noch durch die Überschwemmungen im Ahrtal bewusst vor Augen.

Angesichts dieser Umstände könnten wir auf die Idee kommen, es mit einem Rückbau von Gräben und Drainagesystemen im großen Stil zu probieren: mehr Bodenfeuchte, mehr Grün, weniger schnelles Befüllen der Flüsse bei Starkregen. Ein insgesamt stabileres Mikroklima im Umfeld der Städte und auf dem Land. Kann irgendetwas dagegensprechen?

Auch bei solch günstigen Klimaanpassungsmaßnahmen stehen viele Interessen im Raum. Niemand will abrutschende Straßen und Häuser, weil Wiesen erneut vernässt würden. Kein Landwirt möchte eine Senke mit Staunässe auf eigenem Grund oder gar Äcker und Wiesen, die wieder naturnah gestaltet würden.

Andererseits träumen innovative Stadtplaner von Schwammstädten und längst macht sich die Erkenntnis breit, dass der urbane Raum es mit der Versiegelung zu weit getrieben hat: Die Sommer werden unerträglich und zugleich bangt man vor Starkregen, wohl wissend, dass die aktuellen Kanalsysteme überfordert wären.

Es ist also Zeit in der Stadt wie auf dem Land neu zu denken und Infrastruktur teilweise zu ersetzen. Mit der sich verringernden Grundwasserneubildungsraten ist es nicht zukunftsweisend Grund- oder Trinkwasser im großen Stil zur Bewässerung einzusetzen, schon heute wird über Wasserrationierung nachgedacht. Schon heute müssten wir in sehr viel grüneren Städten leben, damit wir einen dämpfenden Effekt bei Hitzewellen hätten. Schon heute sterben unsere Wälder und man fragt sich, welche Bäume diesem Stress (Hitze und Trockenheit) noch standhalten können.

Auch der Freizeitwert der Wälder sinkt erheblich, wenn wir sie nicht mehr betreten dürfen. Dieses Foto habe ich aufgenommen in einem Wäldchen, dessen Umgebung durch Verstädterung und Landwirtschaft geprägt ist. Oberhalb des Wäldchens finden sich auch Gräben und Drainagen. Hinweis: Ein Zusammenhang ist durch meine Recherche nicht zu belegen.

Ob uns der liebe Gott uns Wasser schenken wird, darf bezweifelt werden. Doch vielleicht helfen die Götter, wenn wir uns selbst helfen (nicht nur bei Mooren)?

Bessere Literaturrecherche mit dem PubPeer Browserplugin

2022-07-02T15:59:43Z

PubPeer ist eine wunderbare Plattform, auf der öffentlich nachgeholt werden kann, was bei PeerReview übersehen wurde! Wann immer ein kleiner Fehler in einer Publikation gefunden wird, gar eine Fälschung oder schlicht Diskussionsbedarf besteht, hier kann hart, aber kollegial Öffentlichkeit hergestellt werden. Klar, es ist ein Pranger. Doch wie oft habe ich / habt ihr erfolglos nach Daten gefragt, wenn es hieß “data available upon request”? Na, da sind wir nicht allein. Insofern ist es eine gute Sache, wenn z. B. auf fehlende Daten öffentlich hingewiesen wird – schließlich räumen Communities nicht unbedingt in Eigeninitiative ihren Laden auf. Und auch bei offensichtlichen Fälschungen hinken Zeitschriften oft Jahre hinterher, wenn es gälte, Veröffentlichungen zurückzuziehen.

Inzwischen gibt es ein Plugin für gängige Browser (hier), der bei KollegInnen bei der Literatursuche gleich anzeigt, ob es auf PubPeer zu diesem Artikel eine Diskussion gibt. Das sieht dann beispielsweise so aus:

Markiertes Suchergebnis bei der Suche mit PubMed – der Metadatenbank für wissenschaftliche Artikel aus Medizin und Lebenswissenschaften.

Es wird also bereits bei der Suche deutlich: “Näher hinschauen ist angesagt!” – denn vielleicht weist die Referenz eine mäßig gute Beschreibung ihrer Methodik auf? Vielleicht sind die Schlussfolgerungen gewagt? Was auch immer vorliegt: Als WissenschaftlerIn darf ich eine solche Referenz nicht ohne Vorsicht für meine Arbeiten verwenden und bin gewarnt.

Die Pandemie bedeute(te) aber auch Hochkonjunktur für Obskuranten und Wissenschaftsleugner jeglicher Couleur. Da kann es für das Publikum oder auch recherchierende Journalisten und Blogger hilfreich sein, wenn unmittelbar sichtbar ist, dass Zweifel an den “Schlußfolgerungen” bereits geäußert wurden. Oder, selten so zeitnah wie im gezeigten Screenshot, ein wissenschaftlicher Artikel auch zurückgezogen wurde:

Zwei zurückgezogene Artikel, sie wurden z. T. bereits hier im Blog diskutiert.

In der Regel sind die Diskussionen dort sehr zivilisiert, fachlich orientiert und auf den Punkt gebracht. Die Autoren der betroffenen Artikel können auch antworten, verbessern und mit ihren Kritikern ins Gespräch kommen. Allen ist bewusst, dass Menschen Fehler machen und das ist kein Problem. Anders sieht es selbstverständlich bei offensichtlichen Fälschungen aus und der Umstand, dass auch Twitterthreads eingebunden werden können, erhöht bei emotionalen Themen und im Umgang mit offenkundigem Unsinn nicht gerade den Diplomatiefaktor.

Das Browserplugin funktioniert auf beliebigen Webseiten, mit Links auf wissenschaftliche Zeitschriften(datenbanken). Hier: ein Screenshot von Josephs Artikel zur gemeinsamen Arbeit von H. Walach mit J. Ioannidis. Hier wird es für geneigte Leser interessant, denn folgt man dem Link, wird klar, dass auch der Standardartikel zur Reproduzierbarkeitskrise von J. Ioannidis („Why Most Published Research Findings Are False“) nicht ohne Vorbehalte zu interpretieren ist.

Wie dem auch sei, kommentieren kann man auf PubPeer nach Anlegen eines Accounts, z. B. um Ergebnisse als unzureichend dokumentiert zu markieren oder widersprechende Artikel zu verlinken. So wird den KollegInnen in der Wissenschaft das Leben leichter – und selber kann man sich etwas Genugtuung verschaffen, wenn man wieder einmal (erfolglos) versuchte auf Ergebnissen anderer zu bauen. Allerdings Achtung: Bei Arbeiten aus dem eigenen Umfeld, die in Verdacht stehen, manipuliert zu sein oder Lücken aufzuweisen, sollte man den Tipp lieber leise weitergeben, auf dass Dritte den fraglichen Artikel kritisieren. Die Gefahr ist groß, sonst ein Nestbeschmutzerimage zu bekommen (es ist auch möglich anonym zu kommentieren).

Die passende Open-Access-Zeitschrift mit B!SON finden

2022-06-04T18:17:53Z

Die Zahl der Open-Access-Zeitschriften wächst weiterhin (Beispiel). Das Projekt B!SON nimmt an, dass vielen AutorInnen mittlerweile die Übersicht fehlt und sie Schwierigkeiten haben, die für ihre Publikation beste Zeitschrift zu finden. Man möchte hierbei unterstützen und basierend auf den Bestandteilen eines Manuskriptes (Titel, Abstract und Referenzen) die inhaltlich relevanten Open-Access-Zeitschriften präsentieren.

Offengestanden habe ich, als ich von dem Projekt hörte, zunächst die Prämisse angezweifelt (wissen wir Forscherinnen und Forscher wirklich nicht um die in unserem Feld relevanten Zeitschriften?), um mir dann einzugestehen, dass es mir ab und an schon so geht, dass mir die optimale Wahl einer Zeitschrift – gerade wenn ich interdisziplinär unterwegs bin – zuweilen schwerfällt. Was mich allerdings wirklich irritierte: In meiner Laufbahn haben wir eigentlich immer zuerst die Zeitschrift gewählt und dann die Veröffentlichung (inkl. Titel, Abstract, Referenzen und Formatierung) erstellt. Anders gesagt: die notwendigen Hinweise, die B!SON erwartet, standen erst fest, wenn die Zeitschriftenwahl bereits gefallen war. Allerdings sind Titel und Abstract auch schnell zu schreiben und die Referenzen liegen vor dem Paperschreiben zumindest größtenteils vor.

Als ich B!SON ausprobierte (was man hier kann) zeigte sich das Werkzeug aber noch etwas eigenwillig und schlug mir (der ich eine Arbeit für einen Workflow für pharmazeutisches Ligandenscreening einfütterte) zuvorderst Zeitschriften aus der Welt der Chemie und Pharmazie vor. Letzteres kommt meinem Ziel in gewisser Weise nahe, da der Inhalt der Arbeit aber reine IT ist, möchte ich doch Reviewer aus der IT finden. Und Reviewer, die in angewandter Bioinformatik oder – neudeutsch – computational science bewandert sind, gibt es weder in der Pharmazie noch der Chemie häufig (in der Chemie wenigstens einige CheminformatikerInnen – aber es geht halt nicht um Cheminformatik).

Nun gut, B!SON ist nach eigenen Angaben noch im Betastadium. Also flugs das Feedbackformular ausgefüllt und dem Projekt viel Erfolg gewünscht! Vielleicht seid ihr ja auch gerade eine Veröffentlichung zu schreiben? B!SON kann, glaube ich, Input und Feedback verschiedener Disziplinen gut gebrauchen – im besten Fall erhält man ein paar brauchbare Vorschläge. Der Aufwand zum Test ist dafür gering. Ich werde in jedem Fall den Weitergang des Projekts verfolgen.

Eindrücke von der International Supercomputing Conference

2022-06-04T14:47:13Z

Vor ein paar Tagen ging die “International Supercomputing Conference” (ISC) zu Ende. Für mich ist diese “Konferenz” ein seltsames Zwitterwesen. Sie ist nämlich nicht wie andere wissenschaftliche Konferenzen auf den wissenschaftlichen Austausch fokussiert, sondern zeigt eher einen Messecharakter. So gibt es denn neben Postersession und Fachvorträgen eine Halle mit Messeständen, Vorträge der Hersteller, vertrauliche Runden unter Nondisclosure Agreements und sehr, sehr viel Nerdtalk. Nach Jahren an der Frankfurter Messe und einer coronabedingten Unterbrechung, die ein rein virtuelles Format aufwies, fand sie dieses Mal nach längerer Zeit wieder in Hamburg statt.

Viele Teilnehmer äußerten, dass es gut tat, sich nach so langer Zeit endlich wieder von Angesicht zu Angesicht zu unterhalten. Dem kann ich mich nur anschließen, auch wenn tausend maskenlose Leute doch eine zu optimistische Haltung ausstrahlten. Kein Wunder, dass gleich einige SARS-CoV-2 Infektionen beobachtet wurden. Meine Corona-Warn-App zeigt denn auch ein erhöhtes Risiko an – aber Vorsicht und ein Quäntchen Glück zahlten sich aus.

Wie dem auch sei, ich kann von den vielen technischen Neuerungen, die früher oder später ohnehin irgendwo veröffentlicht werden, nicht berichten: erstens dürfte ich nicht, zweitens war ich nicht dabei. Vor lauter Arbeit waren es für mich nur anderthalb Tage. Aber die hatten es in sich: Wie ihr wisst, interessiert mich eher die Softwareseite, weshalb ich mich vom Trend zur Containerisierung und Cloudcomputing (beides bald hier mal Thema) habe inspirieren lassen. Und natürlich gab es viele, viele Gespräche sowie neue und alte Kontakte – für so was ist eine Konferenz schließlich da.

Birds of a Feather

Das englische Sprichwort birds of a feather flock together gab für manche Konferenzen, insbesondere im IT-Bereich (dort oft BOF genannt), den Impuls, die Treffen Gleichgesinnter auf Konferenzen ebenso zu benennen und etwas zu formalisieren (man muss das bei der ISC und anderen Konferenzen beantragen, dafür bekommt man eine Eintragung ins Programm und alle Interessierten wissen, wann und wo man sich trifft). Wie ihr euch denken könnt, haben mich zwei Themen besonders interessiert:

HPCCF – Das Zertifizierungsforum für Lehre im Hochleistungsrechnen. Es war spannend und wir haben viel diskutiert.
Heisse Diskussion beim HPCCF-BOF. Links im Vordergrund: Meine Wenigkeit. Alles verschwommen, da keine Erlaubnis zur Veröffentlichung eingeholt ;-).

Und für mich war das besonders spannend, weil ich den Kontakt verloren habe: Das letzte Jahr war sehr arbeitsintensiv und so waren meine Beiträge dort nahe null. Doch zum Glück ist man nicht alleine: zusammen mit Weronika Filinger (bekannt vor allem für ihre Moocs) habe ich mich “verschworen” wieder mehr Beiträge zu leisten – und möchte bald eine Bachelor- oder Masterarbeit zur Verbesserung des Webinterfaces des eigentlichen Examens, welches das Forum entwickelt, ausloben.
Interessant sind vor allem die extrem unterschiedlichen Vorstellungen rund um das Thema Lehre im HPC-Sektor. Das, was man für leistbar und ideal hält, unterscheidet sich zwischen den Ländern (ein bisschen) und zwischen HPC-Zentren (extrem). Während einige überhaupt keine Kurse bieten (Motto: Wer bei uns rechnen will, soll gefälligst wissen wie!), fokussieren sich die nächsten auf die HPC-ideologischen Aspekte (Motto: Profiling, Optimierung und MPI über (fast) alles!) und wieder andere versuchen ein holistischere Kurspolfolio anzubieten (Motto: Für Anfänger und Fortgeschrittene soll etwas dabei sein und für die Fachwissenschaften auch. – der Erfolg hängt hier wesentlich von der Personalstärke ab, wer hätte das gedacht?).
Außerdem musste ich natürlich ein BOF zum Thema Datenmanagement und “Data Lakes” besuchen! Dort war die Diskussion besonders heiß. Unter anderem wurde wieder einmal ernsthaft die Idee vertreten, das ganze Bemühen um Metadaten, die Datensätzen zugefügt werden sollen (was eigentlich wichtig ist, damit man die Daten wiederfinden und zuordnen kann), sein zu lassen: Es sei ja kein Problem, mit künstlicher Intelligenz die Originalveröffentlichungen zu durchforsten und so einen Index der Daten und ihrer Orte anzulegen. Die Zahl wissenschaftlicher Veröffentlichungen ist enorm. Alleine die Herausforderung, dort Spreu vom Weizen zu trennen, ist enorm und ohne spezifische Kenntnisse eines Fachgebietes nicht immer möglich. Maschinelles Lernen ist dort noch nicht angekommen und ob man seine Hoffnungen in noch nicht entwickelte Technologie legen sollte? Skepsis scheint angebracht.
Was ist vor allem anderen aus all den Diskussionen rund um das wissenschaftliche Datenmanagment der letzten Monate mitnehme, sind vor allem drei Dinge:
- Um wirklich Anklang zu finden, braucht es ansprechende Benutzeroberflächen und guten Support.
- Hierzu braucht es Investitionen, damit nicht Insellösungen entstehen, die nur Institution mit viel Personal (=Geld) bereitstellen können und deren Inselcharakter das Problem der Nichtauffindbarkeit noch weiter verschlimmert.
- Es beschleicht mich das Gefühl, dass hierzulande mancher NFDI, dessen Nutzer Hochleistungsrechnen betreiben, überhaupt nicht mit den Betreibern der Infrastruktur in Kontakt sind. Inwieweit mein Gefühl zutreffend ist? Ich weiß es nicht, ich würde gerne mehr dazu erfahren – gerne auch Widerspruch.

Damit kommt der Beitrag selbstverständlich nur dazu, zwei sehr kleine Aspekte der diesjährigen ISC herauszuheben. Wissenschaftlich ist aus meiner Warte(!) nichts zu berichten – ist halt doch eher eine Messe. Vielleicht war jemand von euch dort und mag kommentieren / berichten? Ich würde mich freuen!

Mehr Geld für Spitzenforscher aus USA = Innovation?

2022-05-26T16:47:14Z

Lars Feld gab ein Interview in der ZEIT. Laut Begleittext zum Interview ist er “Chefberater von Bundesfinanzminister Christian Lindner”. Es ging um eine neue Finanzpolitik, die die Wirtschaft ankurbeln soll. Und er lässt sich so zitieren:

ZEIT: Wie ermöglicht man mehr Innovation?

Feld: Wenn wir – nur als Beispiel – durch eine Reform der Besoldungspraxis an den Universitäten Spitzenforscher aus den USA anlocken, dann dürften die zusätzlichen Ausgaben für die Gehälter keine messbaren Auswirkungen auf die Inflationsrate haben. Aber die Forschungsergebnisse helfen uns dabei, effizientere Produktionsmethoden zu entwickeln.

DIE ZEIT No 21 vom 19. Mai 2022 (link führt zu Paywall)

Nun muss man entschuldigen, dass Wirtschaftsfachleute nicht wissen, wie naturwissenschaftliche und technische Forschung abläuft, was dabei herauskommen kann und wie man das erleichtert. OK, der Spruch war billig. Dennoch – weil sich solche Gedanken hartnäckig halten und zu weiterer wirkungsloser (und teurer) Wirtschaftspolitik führen können, darf der Versuch einer Einordnung nicht fehlen:

Führt gute Forschung zu mehr Wirtschaftskraft?

Dass das Messen wissenschaftlicher Exzellenz ist ein Kapitel für sich, ist nichts Neues. Wenn, wie hier, die Behauptung im Raum steht, dass das Anlocken von “Spitzenforschern” zu besseren Produktionsmethoden führt, können wir uns zumindest einmal fragen, ob es einen Zusammenhang zwischen Wirtschaftswachstum (einfach zu messen) und der Qualität wissenschaftlichen Outputs gibt.

Das Bruttosozialprodukt ist (bei aller berechtigten Kritik an diesem Indikator) eine allüberall erhobene Größe und eignet sich damit einigermaßen gut für Vergleiche. Beim wissenschaftlichen Output steht zumindest eine quantitative Größe zur Verfügung: die Zahl der wissenschaftlichen Veröffentlichungen. Das ist besser als nichts, aber wir müssen uns eingestehen, dass eine globale Wichtung der Qualität wissenschaftlichen Output zwar möglich, aber schwierig ist.

Jedenfalls kann man für den Übergang von 1970er zu 1980er-Jahren festhalten, dass es keinen Zusammenhang gibt zwischen der Zahl der Veröffentlichungen auf 1000 Einwohner und dem Bruttosozialprodukt zwischen 1979 und 1983 gibt (Quelle nur noch antiquarisch verfügbar). Man kann konstatieren, dass der wissenschaftliche Aufstieg Chinas erst nach seinem wirtschaftlichen Aufstieg einsetzte. Ein Aufstieg, der aufgrund von papermills (Firmen, die im Auftrag forschender Veröffentlichungen generieren und dazu Resultate erfinden, schönen oder mehrfach einsetzen) und einem fraglichen Anreizsystem nicht ungetrübt ist. Auch für andere Länder Asiens ist der Zusammenhang zwischen Wirtschaftskraft und wissenschaftlichem Ausstoß sehr schwach.

Bis hierhin können wir die Frage, die dem Absatz vorangeht (Führt gute Forschung zu mehr Wirtschaftskraft?) verneinen und zumindest plausibel vermuten, dass es eher umgekehrt sein könnte – doch Herr Feld ist nicht widerlegt!

Patente und Publikationen

Um weiterzukommen, können wir uns anschauen, wie viele Patente aus einem Land kommen (Quelle) und wie viele wissenschaftliche Publikationen ein Land ausstößt (normalisiert, Quelle). Warum? Na, wenn man Innovation monetarisieren möchte, sind Patente eine Möglichkeit. Das sieht dann so aus:

Wissenschaftliche Publikationen, aufgetragen in Abhängigkeit der Zahl der Patente (ppm = pro Millionen Einwohner). Jeder Punkt entspricht den Zahlen eines Landes. Die drei Länder mit den meisten Patenten pro Millionen Einwohner sind übrigens Japan, die USA und Deutschland. Die “Spitzengruppe” der Länder mit den meisten wissenschaftlichen Publikationen pro Millionen Einwohner wird durch die Länder mit wenigen Einwohnern geprägt – vorneweg ist der Vatikan (hier nicht gezeigt, weil keine Patentdaten in der anderen Tabelle waren).

Eine Korrelation! Ganz klar! Aber nur eine schwache. Nichts, was überrascht (schließlich hängen beides, Wissenschaft und Patente durch die Industrie, von einem gewissen Wohlstand eines Landes ab) und doch ein weiteres Fragezeichen hinter die eindeutige Monetarisierung von Forschungsergebnissen (darum geht es ja bei der “Innovation”) durch die schlichte Berufung von Spitzenforschern.

Wie kommt “Innovation” zur Wirtschaft?

Nun, ein Weg zur Monetarisierung von Innovation – um nichts Anderes geht es im Interview – ist das Patent. Klar. Aus der Grundlagenforschung können nicht in allen Gebieten Patente kommen, egal wie gut die Forscher sind. Es gibt einfach Disziplinen, die nichts “patentwürdiges” abwerfen können. Daneben kann man sich aber auch fragen: “Ist das Potenzial hierzulande ausgeschöpft?” Und wie die FAZ im letzten Jahr zum Urteil kommen: Nein, und zwar, weil es sich überhaupt nicht lohnt.

Ein anderer Weg von Innovation zu Geld, wenngleich hart und unsicher, ist die Unternehmensgründung. Da tut sich hierzulande nicht so viel wie anderswo und die Gründe sind auch untersucht (Beispiel). Die “Computerwoche” beschreibt das Fazit jener Studie vor zwei Jahren so:

Die Arbeit im Team ist zentral für den Erfolg. Damit eine Innovation zur Unternehmensgründung führt, muss das Gründerteam divers denken, günstige Teamdynamiken vorweisen und erfolgreiche Stressbewältigung anwenden können.

Ob das zarte Pflänzchen “Teamgeist” in der #ichbinhanna-Republik gedeihen kann? Ob das große Heer der abhängig Beschäftigten überhaupt in der Abhängigkeit so produktiv ist, wie es sein könnte?

Fazit

Es gibt hierzulande also ungelebte Möglichkeiten – zumindest beim Monetarisieren von Forschungsergebnissen. Könnten aus den USA^# angeworbene Spitzenforscher hierzulande in puncto Innovation, die sich rechnet, mehr reißen als hier ausgebildete und arbeitende Kräfte? Das ist mindestens fragwürdig^##. Nicht zuletzt, weil die meisten Patente aus der Industrie kommen. (Mein eigenes habe ich bei einem Ausflug in “die Industrie” erhalten – zwar wertlos, aber an der Uni gab es nie die Möglichkeit zu patentieren – es ergab sich einfach nichts.)

Geld ist wichtig. Ohne geht Forschung nicht. Doch wissen wir längst, dass die Politik noch andere Möglichkeiten hat, bessere Rahmenbedingungen zu setzen. Das wird den Finanzminister freuen.

Und mich würde freuen, mal weniger Kreuzchen beim Bingo setzen zu können, wenn mal wieder Berater Interviews geben.

/////////

^# Warum eigentlich die USA? Es gibt auch super Wissenschaft bei unseren Nachbarn – aber die teilweise immer noch vorherrschende Provinzialität mancher Hochschulen ist ein anderes Thema.
^## Berufungen von ProfessorInnen sind immer mit dem Risiko verbunden, dass neuen Stelleninhaber keine Leistungsträger sind. In ein paar Fällen ist mir zumindest bekannt, dass das auch auf aus den USA berufene (Deutsche) zutrifft.

Kommentar zu einer “Charité-Studie”, die viele Impfkomplikationen “belegt” – oder wie, oder was?

2022-05-06T18:53:24Z

Eine Studie der Charité zeigt jetzt: Die Zahl der schweren Nebenwirkungen liegt in der Praxis immerhin deutlich höher als die offiziellen Meldezahlen. Studienleiter Harald Matthes sagte dem MDR, dass etwa 0,8 Prozent der Geimpften über schwere Nebenwirkungen klagten – das sind deutlich mehr als die schweren Verdachtsfälle, die dem zuständigen Bundesinstitut bislang gemeldet wurden. Matthes fordert nun Anlaufstellen für Betroffene.

Diese Meldung (das Zitat ist aus der Morgenpost) machte in den letzten Tagen die Runde, auf Twitter war #Impschaeden ein beliebter Hashtag und Kommentare der Querdenker voller Häme. Die zitiere Meldung findet sich mehrfach in der Presselandschaft und unter dem Interview, dass alles in Rollen brachte, findet sich schön reißerisch “Impfkomplikationen? Mehr schwere Nebenwirkungen als gedacht?”.

Keine Frage, die Erfassung von Impfnebenkomplikationen ist wichtig. Gemeint sind hier natürlich nicht irgendwelche Impfungen, sondern Anti-SARS-CoV-2-Impfungen, insbesondere mRNA-basierte. Also ein wirklich wichtiges Thema, schließlich sind hierzulande bislang Millionen Dosen verabreicht worden. Aber dazu gibt es doch ein Meldeformular? Und das Paul-Ehrlich-Institut veröffentlicht in regelmäßigen Abständen einen Report (hier Link zur letzten Ausgabe)? Was ist also das Besondere dieser Studie?

Weitere Forschung ist immer gut. Doch, wenn darüber hinaus so stark die Pressetrommel gerührt wird, sollte man mal näher hinschauen:

Die Studie und ihr Initiator

Initiator besagter Studie ist Prof. Harald Matthes, Ärztlicher Leiter des Krankenhauses “Havelhöhe” in Berlin und Inhaber einer Stiftungsprofessur Integrative und Anthroposophische Medizin. Offenbar Gastroenterologe und kein Epidemiologe. Und so listet sein Forschungsprofil eine beachtliche Reihe von Publikationen – jedoch keine mit dem Schwerpunkt Epidemiologie, gleich welcher Art.

Und die “Studie” selber? Sie ist überhaupt keine Studie im engen Sinn, sondern eine Onlinebefragung von Auskunftswilligen. Wer will, kann hier teilnehmen. Bevor wir also auf Details eingehen, können und sollten wir festhalten: Es erfolgten keine medizinischen Untersuchungen und die Teilnehmer sind in keiner Weise ausgewählt.

Probleme der Studie

Vorab dürfen wir feststellen, dass es noch keine veröffentlichten Ergebnisse zu geben scheint. Jedenfalls sind keine in den einschlägigen Datenbanken, der Studienhomepage oder in Pre-Print-Ausgaben von Journals zu finden. (§) Noch also kann die Gemeinschaft der WissenschaftlerInnen keine Daten in Augenschein nehmen, die das gegenüber der Presse geschlussfolgerte Risiko für Impfkomplikationen bewerten könnte. Noch gibt es nur die Aussagen gegenüber der Presse und man muss sich sehr sicher sein, wenn dann eine “bessere Betreuung” für die Betroffenen gefordert wird.

Wer epidemiologisch forscht, lernt schnell verschiedene Möglichkeiten, die es später erlauben, aus den Befunden einer Studie Schlussfolgerungen zu ziehen. Möglicherweise sogar solche, die sich auf die Allgemeinbevölkerung übertragen lassen bzw. die Studie “repräsentativ” zu machen. Unter anderem wählt man bei Umfragen dieser Art, die Teilnehmenden zufällig aus und stellt sicher, dass es genügend viele Teilnehmenden gibt. Das ist hier nicht der Fall. Dadurch, dass alle Menschen teilnehmen können, die es wollen und gezielt nach Beschwerden nach eine “COVID-Impfung” gefragt wird, dürften die Autoren einer späteren Veröffentlichung es schwer haben, eine gewisse Voreingenommenheit der Teilnehmer auszuschließen.

Wer sich nun durch die “Studie” klickt (++) sieht sich einigen allgemeinen Fragen gegenüber und als einziger Datenpunkt, den man bestimmten Personen zuordnen könnte geht die E-Mail-Adresse ein. Eingangs steht die Frage, ob man je an COVID erkrankte und ob ein Antikörpertest gemacht wurde. Weiter wird gefragt, welche “COVID-Impfung” man wann zuletzt erhalten hat und – zunächst ganz allgemein – ob man danach Beschwerden hatte. Dann folgen unter anderem Fragen zur persönlichen Einschätzung der Corona-Krise:

Durchaus soziologisch interessant zu wissen, was Menschen so denken. Und vielleicht dienen diese Fragen in der Umfrage auch dazu, abschließend zu kontrollieren, ob bei Impfskeptikern mehr Nebenwirkungen auftreten oder nicht. Diesen Fragen schließen sich einige Fragen über den Familienstand und Kinder an, dann geht es weiter mit Fragen zur psychischen Gesundheit:

Es folgen – keine weiteren Fragen zur körperlichen Gesundheit, sondern weitere Fragen zur psychischen Gesundheit:

Und … noch mehr Fragen zum psychischem Hintergrund.

Das alles ist nicht ungewöhnlich, Fragen zum psychischen Wohlbefinden sind essenziell, wenn es gilt, psychosomatische Effekte einer Impfung oder Medikamentengabe einordnen zu wollen. Und so werden solche und ähnliche Fragen Teilnehmern von Medikamentenstudien regelmäßig präsentiert.

Allerdings sind dies die einzigen Fragen zu den Auswirkungen der Impfung. Und diese Antworten sind nicht in einen eindeutigen Zusammenhang mit einer Impfung zu bringen, da sich die Fragen auf die Gefühle in den letzten zwei Wochen beziehen, die letzte Impfung länger zurückliegen kann und es keinerlei Kontrollfragen zum Befinden vor den Impfungen gibt. So kommt zur schlechten Auswahl der Teilnehmerschaft auch noch ein schlechtes Design der Umfrage.

Die Umfrage lässt außerdem zwei große Fragenkomplexe vollständig vermissen:

alle Fragen nach den körperlichen Auswirkungen
alle Fragen nach ärztlicher Bestätigung (ob es je irgendeine Untersuchung gab, wird in diesem Eingangfragebogen überhaupt nicht erfragt)

Aber am Schluss des Fragebogens steht:

Sie bekommen in den kommenden Wochen automatisch eine Einladung für eine Folgebefragung.

Ich bin gespannt. Vielleicht werden noch Fragen nach ärztlichen Einschätzungen präsentiert.

Fazit

Im Interview – das dramatisch eingeleitet wird – spricht Professor Matthes jedoch von einer Beobachtungsstudie, bei der “Personen, die sich haben impfen lassen” direkt nach dem Zeitpunkt der Impfung eingeschlossen wurden.

Es kann sein, dass es diese Beobachtungsstudie über die gezeigte Befragung hinaus gibt und alle Schlussfolgerungen, ob die Herr Matthes referiert, valide sind. Insbesondere die vielen körperlichen Reaktionen, die angeblich von Ärzten nicht ernst genommen wurden, aber klar in einen kausalen Zusammenhang mit der Impfung gegen SARS-CoV-2 gebracht werden können, sollten schnellstmöglich auf den Tisch!

Dadurch, dass teilnehmen kann, wer will, kann die Häufigkeit schwerwiegender Nebenwirkung überschätzt werden. Doch wenn es unerfasste Dunkelfälle gibt, wäre es sehr wichtig, diese Fälle sauber zu dokumentieren, um zu einer besseren Risikobewertung zu gelangen. Wer unterstellt, dass es keine hierzulande keine saubere Erfassung des Risikos gibt, aber auf Studiendaten sitzt, die dieses Argument untermauern könnten, sollte seinen Daten so schnell wie möglich veröffentlichen – im Interesse aller.

Fernsehinterviews stillen vielleicht das Geltungsbedürfnis. Als Gesellschaft haben wir das Recht auf gute Daten. So zeigt zum Beispiel die Zulassungsstudie für den Impfstoff von Biontech, dass es schwere Nebenwirkungen in der Kontrollgruppe (mit Kochsalzlösung geimpft) etwa ebenso häufig gab, wie in der Impfgruppe. Die Studie des Herrn Matthes dürfte – jedenfalls was den sichtbaren Teil betrifft – nicht in der Lage sein, etwaige körperliche Reaktionen in einen Zusammenhang mit der Impfung zu bringen.

Zum Schluss sehe ich, dass während des Beitragschreibens ein Artikel zum Thema bei ZEIT-Online erschien. Offenbar distanziert sich nunmehr auch die Charité von der “Umfragestudie” – so etwas kann ein kleiner Blogger nicht erreichen. Ich freue mich aber darüber, dass der Artikel unmittelbar bestätigt, dass es über die Umfrage hinaus wenig Substanz gibt.

Vielleicht brauchen wir ein “Zentralblatt für tiefergelegte Wissenschaft”, wie von Joseph Kuhn unlängst “gefordert”. Bestimmt brauchen wir besseren Journalismus, in dem nicht jeder mit Autorität akademischer Grade “wissenschaftliche Fakten” völlig ungeprüft und unhinterfragt kundtun darf. Sich einfach vorher mal ein paar Resultate zeigen lassen? Kurz erfragen, was wirklich gemacht wurde? Wenigstens 15 Minuten im Hintergrundgespräch vorab? Mir scheint, das wurde beim MDR unterlassen.

Denn wenn die kolportierte Zahl von 0.8 % schwerer Nebenwirkungen der Anti-Coronaimpfungen viel zu hoch und durch keine Daten belegt ist, dann sollte sich auch nicht wieder und wieder verteilt werden. Hier auf Scienceblogs gibt es die Serie “Schlechte Schlagzeilen” – vielleicht ist das auch eine Idee für manche Zeitung? So leicht und billig könnte man über die Konkurrenz herziehen und dazu noch aufklären!

§ Sollte ich eine Vorveröffentlichung übersehen haben, bitte ich um Hinweise: Ich werde den Artikel sofort korrigieren.

++ inzwischen habe ich selber teilgenommen.

Hörtipp: “Das wissenschaftliche Publikationssystem muss sich ändern”

2022-04-13T16:13:12Z

Die Arbeit von Elisabeth Bik habe ich hier im Blog bereits einmal kurz vorgestellt. Damals offenkundig nicht so gut, dass es allgemein verstanden wurde.

Also … es gibt offenbar eine ganze Reihe problematischer Veröffentlichungen, wo Bilder oder Bildbestandteile dupliziert werden. Problematisch ist dies, weil Abbildungen wie mikroskopische Aufnahmen von Zellen, die genau unter einer experimentellen Bedingung aufgenommen wurden, je Veröffentlichung genau einmal vorkommen dürfen. Eine andere experimentelle Bedingung (z. B. eine andere zugegebene Substanz) erfordert eine andere Aufnahme – sonst muss man einfach annehmen, dass ein Versehen oder gar eine Fälschung von Ergebnissen vorliegt. Wenn gar Teile eines Bildes dupliziert werden, ist unbedingt von einer Fälschung auszugehen, so etwas geschieht nicht zufällig und dient in der Regel dazu eine Schlussfolgerung zu stützen, die vielleicht überhaupt nicht zulässig ist. Und wie im letzten Artikel beschrieben: Das Problem ist sehr, sehr groß.

Dennoch sagt ein Bild mehr als tausend Worte, hier also ein Beispiel, wo ausgeschnitten & eingeklebt wurde – und eben völlig verschiedene Bedingungen “zufällig” ein und denselben Teilstatus ergeben:

#EditorialFail – Correction issued @sciencedirect's Biomaterials for this figure (and other less serious issue). Some cells are duplicated across photos representing different experiments. Some panels have background rectangles around cells.https://t.co/cdfgEuD7nS pic.twitter.com/E90cpbHctp

— Elisabeth Bik (@MicrobiomDigest) April 7, 2022

“wissen – handeln? Der Podcast zur engagierten Wissenschaft” der Jungen Akademie hat nun in seiner letzten Folge ein Interview mit Elizabeth Bik. Sie beantwortet Fragen rund um ihre Aktivitäten: Wie wurde sie zum Science Consultant? Wo ist der Spaß, Veröffentlichungen auf Fälschung hin zu untersuchen? Wie geht sie vor? Welche Gefahr geht von Paper Mills aus? Und viel mehr – vor allem aber: Welche Schlüsse zieht sie für das ganze System?

Hört mal rein. Denn gelegentlich stellt Florian nebenan die Frage, welche hörenswerten Wissenschaftspodcast es noch gibt. Noch ist der Podcast jung – aber schon vielversprechend! Wer also auf der Suche nach neuen Podcasts ist, wird hier vielleicht fündig.

F.A.I.R. sollen Eure Daten sein! – Ein grober Überblick über die Herausforderungen wissenschaftlichen Datenmanagements

2022-04-12T20:31:11Z

Wer von euch hat schon mal wissenschaftlich gearbeitet? Eine Diplom-, Bachelor-, Master- oder gar Doktorarbeit? Dann habt ihr auch Datenmanagement betreiben müssen. Die Wahrscheinlichkeit ist groß und sie steigt mit dem Alter eurer Arbeit auf 100 %, dass dieses “Datenmanagement” darin bestand alle Daten auf CD oder (etwas moderner) auf einem Rudel von Festplatten zu spielen, die irgendwo in den Katakomben eurer Arbeitsgruppe (oder Regal mit bedrohlich durchgebogenen Regalbrettern oder Schubladenschrank, wo man lange rütteln muss, bis Platz für eure Festplatte entstand oder … oder … oder) verschwanden. Damit war der Archivierungspflicht Genüge getan, die Arbeit wurde abgegeben und ihr wandtet euch neuen Ufern zu.

Update: An dieser Stelle stand zuvor, dass ich das oben beschriebene Bild wahrlich hunderfach im Kopf habe (und auch einige Fotos). Doch leider habe sich bis jetzt kein mutiger Mensch in Leitungsposition gefunden, der ein abschreckendes Beispielbild (z. B. Schrank voll mit CDs und Festplatten) zur Verfügung stellte. — Inzwischen gibt es diese beiden Bilder. Das linke, eingesendet von Leser “rolak” zeigt eine Schublade mit alten Disketten, die es einmal “richtig” zu archivieren galt. Rechts sehen wir die Einsendung eines Münchner Lesers, der im Job die Aufgabe hatte alte Backups zu retten. (Damit stellt sich einmal mehr die Frage, ob man nicht mal den Unterschied zwischen Backup und Archivieren bebloggen sollte …). Beide Bilder stehen unter CC0. Was ich eigentlich suche ist etwas mit mehr “Ambiente”, wo man wirklich sieht, dass es aus einem Büro stammt. Wer so was hat und teilen mag, maile mir gerne – ich glaube, die obige Collage ist gut erweiterbar.

Vergleiche mit galaktischen Verkehrswegeplänen, deren Pläne selbstverständlich öffentlich auslagen (in einem verschlossenen Aktenschrank in einer unbenutzten Toilette, mit einem Schild, das vor einem bissigen Leoparden warnte, im Keller ohne Licht, zu dem eine kaputte Treppe führte) drängen sich förmlich auf. Denn solcherlei “archivierte” Daten lassen sich einfach selten nur wieder sinnvoll nutzen und wenn das alles mit öffentlichen Geldern finanziert wird, dann hat die Öffentlichkeit auch ein Recht an Wiederauffindbarkeit und Nutzung von Forschungsdaten. Wir, und auch alle Forschungsförderer, erkennen also, dass so eine bloße Archivierungspflicht von Forschungsdaten vollkommen unzureichend ist.

Deshalb kam man auch hierzulande (mit freundlich nudgender Unterstützung unserer europäischen Freunde, die da häufig weiter waren und womöglich auch aufgrund einiger Forschungsskandale, die mit fehlenden oder gefälschten Daten zu tun hatten) auf die Idee mehr zu fordern: Die Einreichung eines Antrags auf Forschungsförderung ist immer häufiger mit der Auflage verbunden, auch einen “Forschungsdatenmanagementplan” einzureichen.

Und das ist nicht nur ein Wortungetüm, sondern auch ein Problem. So ein Datenmanagementplan klopft einige Punkte ab und ist eigentlich ein “fließendes Dokument” – Änderungen können während der Projektlaufzeit nicht nur erfolgen, sondern das wird auch erwartet. Der Plan lässt die Planer an Punkte denken wie “welche Daten sollen zu welchen Zeiten archiviert werden?”, “welche Metadaten sollen mit den zu speichernden Daten verknüpft werden?”, “welche Kosten muss ich berücksichtigen?”, etc. etc. etc..

Außerdem sollen wissenschaftliche Daten noch hehren Ansprüchen genügen: “Findable, Accessible, Interoperable, and Re-usable”. Diese sogenannten F.A.I.R.-Prinzipien der Forschungsdaten klingen toll und stellen alle in der Praxis vor ein Problem – eben ein Datenproblem. Die Anforderungen sind gestiegen, also wurde das Problem größer. Einfach allen Krempel auf die Festplatte aus dem Elektronikmarkt von nebenan spielen reicht nicht mehr – ganz zu schweigen davon von der Geduldsprobe die 300 Terabyte Rohdaten einer Messkampagne oder großen Studie zusätzlich zu den bis zu 500 Terabyte Ergebnis- und Protokolldaten auf USB-Festplatten zu spielen. Aber dröseln wir die Probleme mal der Reihe nach auf, dann werden vielleicht auch die Anforderungen klarer.

Das (Meta-)Datenproblem

Die Forderung nach Auffindbarkeit der Daten bringt mit sich, dass diese Daten mit sogenannten Metadaten garniert werden. Wenn Forschungsdaten nur einen Namen haben (“Wichtiges Projekt mit Supermaschine aufgenommen”) und eine Liesmich.txt-Datei vorhanden ist, in der ein(e) JungforscherIn kurz beschreibt, was man meint gemacht zu haben, dann ist das mehr als nichts, aber eigentlich nicht ausreichend. Damit irgendwer mit den Daten wirklich etwas angefangen kann, wenn es hart auf hart kommt und die Daten erneut analysiert werden müssen, braucht es etwas mehr, nämlich ausreichend viele und gute “Metadaten”.

Metadaten sind Daten, die einen (Forschungs-)Datensatz beschreiben. Wir können da zwischen technischen Metadaten (wie viel, welches Format) und den beschreibenden Metadaten (was wurde wissenschaftlich wie gemacht?) unterscheiden. Die Beschreibung ist besonders wichtig und kann Angaben zu Nutzungsrechten sowie die verwendeten Methoden und Analyseparameter umfassen§.

Wo das Problem liegt? Erfahrungsgemäß darin, dass zu spät an die Beschreibungen gedacht wird. Glücklich, wer ein (elektronisches) Laborbuch gewissenhaft führte. Allein reicht das penible Erfassen aller Parameter nicht aus. Keine Frage, das ist viel wert und damit lassen sich Publikationen oder auch Metadatenbeschreibungen der Forschungsdatensätze deutlich leichter verfassen. Der Prozess der Metadatenerfassung drei Jahre nach Projektbeginn und Datensammlung ist allerdings so fehleranfällig wie alle Arbeiten, die man kurz vor einer Deadline anfängt.

Mit anderen Worten: So so Datenmanagement, wozu auch die systematische Erfassung von Metadaten gehört, geschieht idealerweise projektbegleitend. Aber wenden wir uns zunächst noch der technischen Seite zu:

Technik- und Sicherheitsprobleme und ihre Lösungen

Die Terabyteplatte kostet beim Elektronikladen weniger als 50 €. Arbeitsgruppenleitungen, die ihren PostDocs 50 € pro Terabyte zu archivierender Daten in die Hand drücken, haben eine Win-Win-Situation: Datenproblem? Erledigt . Mit dem Restgeld jedem ‘ne Kugel Eis spendiert und somit die Stimmung gehoben? Erledigt .

Nun sind zwar moderne externe SSD-“Platten” theoretisch sehr lange haltbar, wenn sie nicht belastet werden, aber unbemerkte Speicherfehler können sehr früh auftreten^{[Pincorili et al., 2021]} und gespeicherte Daten ins Nirwarna senden. Für HDD-Festplatten habe ich keine Zahlen finden können, wie lange diese ohne Strom Daten verlustfrei speichern können (wenn jemand eine Quelle hat, wird hier der Link stehen). Allerdings kann man aufgrund der magnetischen Komponenten nicht davon ausgehen, dass etwaige Fehler aufgrund astronomischer Ereignisse oder Magnetisierung im Umfeld von Laboren ausgeschlossen werden können. Kurz: Viele dieser Speichermedien werden die Zeit unbeschadet überstehen – manche nicht und wo auf diese Weise extrem viele externe Medien in den Schubladen verschwinden, sind Ausfälle unvermeidlich.

Professionelle Lösungen vermeiden solche Bastellösungen und etablieren routiniert mindestens folgende Features:

automatische Speicherung auf verschiedenen Medien (bei uns SSD und Bänder)
automatische Speicherung an verschiedenen Orten (bei uns im Rechenzentrum und in einer zweiten Dependance auf dem Campus)
automatisiert regelmäßige Kontrolle der archivierten Dateien und ihrer Prüfsummen. Erneute Kopie der Dateien und Aussonderung fehlerhafter Medien (SSDs oder Bänder) im Fall einer fehlerhaften Kopie oder fehlerhaften Mediums.

Damit ist jedoch nicht einmal der technische Teil vollständig abgedeckt und (zugegebenermaßen nur) grob beschrieben – die Sicherheit gegen Hacking spielt auch eine große Rolle. Während der Plattenhaufen in den professoralen Schubladen allenfalls gegen Einbruch geschützt werden muss, sind Daten auf netzfähigen Geräten (auch wenn nur indirekt im Internet) besonders zu schützen. Verschlüsselung und rigide Zugangsbeschränkungen sind zu verbinden mit optionalen, einfachem Zugang zum Download. Vergabe von digital object identifiers (DOI) ist im professionellen Umfeld selbstverständlich und fördert die Publikation nachvollziehbarer und dauerhaft zugänglicher Forschungsergebnisse, da diese DOIs bei einer Publikation gleich mit angegeben werden können. Undsoweiter, undsoweiter …

Damit ist klar: Die 50 € für das Terabyte sind eine Schwelle, die bei professionellem Datenmanagement hemmungslos, aber gut begründet überschritten wird. Personalkosten, Gerätekosten und Kosten der Medien läppern sich zusammen. Außerdem wurde aus dem Datenproblem ein zusätzliches Technikproblem, denn wer forscht möchte und kann sich nicht auch noch mit spezifischen Interfaces einer Archivierungssoftware mit umständlicher Metadatenschnittstelle herumplagen. Kurse und Workshops können nur einen Teil der Klientel erreichen, weiteres Personal wird benötigt, um den nur sporadisch auftretendem Archivierungsbedarf der einzelnen Projekte in wenig technikaffinen Bereichen gerecht zu werden.

Die politische Lösung …

… ist natürlich schon gefunden, denn wo ein wissenschaftlich-organisatorisches Problem dieser Größenordnung schwelt, ist auch eine wissenschaftspolitische Lösung nicht weit**. So gab es 2018 bereits eine Bund-Ländervereinbarung, die mit 90 Millionen Euro bis 2028 eine “Nationale Forschungsdateninfrastruktur” (NFDI) fördern will. Konkret bedeutet dies, dass sich innerhalb von Fachgebieten interessierte Vorreiter zusammenfinden, um eine NFDI4Irgendwas zu gründen. Die Liste der Beispiele ist lang, NDFI4Chem (für das Forschungsdatenmangement in der Chemie), NFDI4Culture (selbes Ziel bzgl. Forschung zum kulturellen Erbe), NFDI4Biodiversity (selbes Ziel bei der Forschung zur Biodiversität), NFDI4Phys (für Forschung in der Physik – auch transdizipliär) sind nur wenige Beispiele. Einen Überblick über die verschiedenen Initiativen bietet die Hauptseite der NFDI.

Das ist schon mal ziemlich gut: Fachgruppen, die sich systematisch Gedanken über ihre spezifischen Anforderungen machen und die Frage, wie diese Datenmanagementanforderungen konkret umzusetzen sind. In den einzelen NFDI werden auch Lösungen, sowohl organisatorischer Art (z. B. Leitfäden) als auch technischer Art (z. B. das ein oder andere Konversionsscript), entwickelt. Gut auch, dass es mittlerweile möglich ist bei Großprojekten Personal für Datenmanagement mit zu beantragen.

Damit hätte dieser Beitrag ausnahmsweise einmal gut enden können. Ist doch gutes Forschungsdatenmanagent zweifelsohne ein wichtiger Beitrag gegen die Reproduzierbarkeitskrise: Keine gute Metaanalyse ohne Zugriff auf Daten Dritter. Keine Möglichkeit der Reproduzierung ohne Möglichkeit des detaillierten Vergleichs mit den Resultaten Dritter. Doch leider bedeutet der relativ billige Speicher für USB-Speichermedien im Vergleich zu den Alternativen im professionellen Bereich, dass den Stapeln dieser externen Speicher im Professorenbüro das letzte Stündlein nicht geschlagen hat. Und der Umstand, dass das Personal für Datenmanagement in Großprojekten ausschließlich für die Projektdauer Beschäftigung finden wird, lässt befürchten, dass viel erworbene Kompetenz wieder verloren gehen wird – wie so häufig im akademischen Bereich.

+++

§ An dieser Stelle müsste man bei jeder Diziplin und jeder Methodik ins Detail gehen. Mehr als allgemeine Statements wird es vorerst hier nicht geben.

** Sarkasmus gefunden? Darf man behalten!

Musik zum Wochenende: “Andre, die das Land so sehr nicht liebten”

2022-04-09T05:54:26Z

Über Politik hierzulande kann man trefflich streiten. Einige halten denn auch die Maßnahmen gegen die Pandemie für einen Ausdruck von Diktatur und reden dem “Great Reset” das Wort. Inzwischen jedoch … ist die Pandemie (zumindest) politisch (vorerst) beendet.

Dennoch wird noch weiter demonstrierend “spaziert” und die Berufsverschwörer können selbstverständlich nicht aufhören, schließlich haben sie schon sehr viel emotionale Energie und eigene Glaubwürdigkeit (bei ihren Anhängern) in die Verschwörungserzählung investiert. Die Gemäßigteren unter uns finden die Entscheidung des Bundestages zur Impfpflicht gut oder weniger gut – können aber damit leben, weil zur Demokratie eben ab und an gehört, dass die Zufriedenheit mit Entscheidungen ein flüchtiges Gut ist.

Symbolbild der Berichterstattung – hier von einem Artikel der Stuttgarter Nachrichten.

Die Weltlage hat dennoch auch die Verschwörungsraunenden überrumpelt – man weiß nicht, ob vielleicht der eine oder andere noch auswandern mag, andere aus dieser Fraktion haben es bereits getan. Dies alles freiwillig, beziehungsweise wegen eingebildeter Bedrohungslage. Dass andererseits in Mitteleuropa wieder Flüchtende ankommen, die ganz andere Fluchtgründe haben, und selbst in bei rigider Unterdrückung Menschen mutig gegen das Regime demonstrieren, kann niemanden verborgen geblieben sein.

Mich lässt dies unter anderem an den österreichischen Dichter Theodor Kramer denken, dem es 1939, lange nach dem “Anschluss” Österreichs an das Deutsche Reich, gelang nach London zu flüchten. Die Gruppe Zupfgeigenhansel hat in einem Projekt 1985 einige seiner Gedichte vertont. Unter anderem dieses hier, in der Interpretation von Erich Schmeckenbecher (der einen Hälfte von Zupfgeigenhansel) – ein schönes Nachdenklied:

Strukturextrapolation – ein Kernproblem der Wissenschaft(skommunikation), oder was ist eigentlich “wissenschaftliche Software”?

2022-03-31T18:31:09Z

Vor ein paar Tagen war ich schlaflos, griff ins Regal und fand das schöne Buch “Die Logik des Misslingens” (kommerzieller Link) des Psychologen Dietrich Dörner. Ein schönes Buch, auch wenn schon etwas älter. Und bei einem Kapitel fiel es mir wie Schuppen von den Augen …

Warum haben Aliens menschliches Antlitz?

Dörner wundert sich, warum beim Gefecht bei Langarde im Ersten Weltkrieg das Ulanen-Regiment noch eine Kavallerieattacke ritt. Konnte man sich nicht vorstellen, dass es keine gute Idee ist, mit Pferden Maschinengewehrstellungen anzugreifen? Nein, argumentiert er, man konnte nicht. Bei Beginn des Krieges zog man noch trommelnd und pfeifend, die “Offiziere mit gezogenem Degen”, zur Front. Der Krieg, den man erwartete, war eine Neuauflage des deutsch-französichen Krieges von 1870/71. Den Stellungskrieg, der folgen sollte, konnten sich die meisten noch nicht vorstellen.

Für mangelnde Vorstellungskraft gibt es im Buch noch weitere Beispiele: Erste Autos, die Pferdewagen ohne Pferden glichen. Oder Jule Vernes Fantasiereise zum Mond, gestartet mit einem ballistischen Projektil (obwohl Raketen als Feuerwerkskörper längst bekannt waren). Und die Aliens in der Science Fiction, die häufig menschenähnlich (vier Extremitäten, meistens zwei Augen, Nase, etc.) erscheinen. All dies, weil die Vorstellungskraft nicht reichte, über bekannte Strukturen hinaus zu denken.

Und ich merke, trotz vieler Beispiele im Blog, manche regelmäßige Kommentatoren können sich oft gar nicht vorstellen, was mit “wissenschaftlicher Software” so gemeint sein könnte. Und die Ursache für all dies? “Strukturextrapolation!”, so meint Dörner für seine Beispiele erkannt zu haben. “Strukturextrapolation!” vermute ich als Ursache für das Verständnisproblem, das manche LeserInnen des Blogs haben.

Bei der Strukturextrapolation stellt man sich zukünftige oder bislang unbekannte Sachverhalte so vor, wie entsprechende, bereits bekannte. Deshalb haben manche Ingenieure Schwierigkeiten zu akzeptieren, dass ihre Herangehensweise ungeeignet ist, die “Weltformel” zu finden. Deshalb wissen Eltern, wie Schule zu funktionieren hat (und stoßen manchmal LehrerInnen vor den Kopf). Deshalb erklärt einem der Arzt aus der Nachbarschaft die Epidemiologie, denn er kennt ja die Zahlen aus seiner Praxis (und weiß seit Jahren, dass die Krankenkassen Unsinn publizieren).

Die Liste der Beispiele ließe sich endlos fortsetzen, wobei man vorsichtig sein muss, weil Strukturextrapolation keine umfassende Erklärung für alle möglichen Verständnisprobleme ist – und außerdem können wir uns alle in diesem Fallstrick verheddern. Dennoch glaube ich mich genau diesem Problem regelmäßig gegenüberzusehen, wenn ich meine Einführungsveranstaltung für die Nutzung von Hochleistungsrechnern mache: Ich weiß genau, dass meine Klientel allenfalls Berührung mit Laptops, Desktop-PCs und im besten Fall 0815-Servern hatte und entsprechen formulieren die Leute anfänglich ihre Fragen. Im Lauf von zwei Tagen schaffe ich es meist, den Unterschied zum und Sinnhaftigkeit des Rechnens auf Supercomputern zu vermitteln.

Was also ist “wissenschaftliche Software”?

An dieser Stelle ist es natürlich besser kleine Brötchen zu backen: Zu versuchen alle Verständnisprobleme, die durch Strukturextrapolation geschaffen wurden aus der Welt zu räumen ist ein Ding der Unmöglichkeit – es gibt ja hier im Blog und anderswo noch mehr Gelegenheiten.

Worum geht es also, wenn hier von “wissenschaftlicher Software” die Rede ist? Zunächst einmal geht es, etwas präziser, um Software, die verwendet wird um wissenschaftliche Fragestellungen zu beantworten. Und das kann von der Natur her eigentlich allem gleichen, was man selber schon irgendwo kennengelernt hat. Hier im Blog hatten wir schon Webtools in der Bioinformatik und auch grafische Benutzeroberflächen kamen schon kurz einmal vor. Hier zu kategorisieren und zu zählen, was am häufigsten vorkommt, ist nicht einfach.

In der biomedizinischen Mikroskopie dominieren grafische Benutzeroberflächen (Beispiel), viele kommerziell. Gerne verbinden Firmen auch für andere Zwecke Messapparate mit dem Verkauf von Steuer-PCs, um ein Komplettangebot (Steuerapparatur, Messapparat und Auswertesoftware) anbieten zu können. Durchaus sinnvoll und meist, denn die Nutzerbasis erwartet das, unter Windows (Beispiel, Beispiel, Beispiel). Das geht bis zu ganzen Labor-Informations- und Management-Systemen (Beispiel). Die Liste der Beispiele könnte hier noch lange weitergehen und doch wäre es mir nicht möglich eine vollständige Liste zusammenzufassen: Der Versuch das zu tun und zu verallgemeinern wäre Strukturextrapolation meinerseits, denn ebenso wie meine Leserschaft habe ich einen beruflichen Fokus beziehungsweise eine Berufsdeformation und kenne gar nicht die gesamte Welt der wissenschaftlich-technischen Informatik*. Dennoch können wir an dieser Stelle zu einer allgemeinen Aussage gelangen, nämlich, dass die meiste Software auf Linux läuft, bzw. auf linuxoiden System die meisten CPU-Stunden verbraten werden / die meiste Analysezeit erfolgt.

Warum? Weil es “einfach” ist, unter Linux Software zu entwickeln. Vor allem kostet es nicht viel, da wenigstens hier freie, quelloffene Software, inklusive gängiger Entwicklungswerkzeuge dominieren. Vor allem aber laufen alle Feld-, Wald- und Wiesenserver zur Datenanalyse und auch viele, viele Cloudinstanzen zum selben Zweck unter Linux. Nicht zuletzt sind hier sämtliche Supercomputer der Welt zu zählen (vgl. Top500-Liste), wo so unglaublich viele CPU-Stunden zusammenkommen, dass die Zahl der Nullen einem Astronomieblog Konkurrenz machen kann.

Hier geht sehr viel Zeit auf Simluationprogramme und Datenanalysen. Simulationsprogramme sind “einfach”: Simulation durchführen, auswerten, fertig. “Einfach” steht hier natürlich in Anführungsstrichen, weil das Programm an sich und die Anwendung mitunter auch selbstverständlich nicht einfach sind, aber die Abfolge der Schritte ist wenig komplex. Wie sieht das aus?

gmx mdrun -deffnm $configfile

Nicht mehr als eine Befehlszeile in einem Script. (Der Programmname ist mit einem Link hinterlegt, alle Dinge mit ‘$’ stehen für Variablen, hier also für die Angabe einer Datei, in der die Konfiguration für eine bestimmte Molekulardynamiksimulation steht.) Visualisierung der Ergebnisse und damit ein interaktiver Teil ist wichtig! Darum geht es schließlich. Solcherlei Programme, in vielen, vielen Ausprägungen, dominieren die insgesamt benötigte Rechenzeit. Die Visualisierung findet später statt und braucht vergleichsweise wenig Rechenpower.

Datenanalysen mit Präprozessierung (z. B. Qualitätschecks, Artefaktentfernung, ggf. Imputation, eigentliche Rechnung(en), Zusammenfassung) kann beliebig komplex werden. Als Beispiel soll ein kleiner(!) Workflow dienen, der eine Auswertung für Transkriptom-Sequenzierung ergibt – aber im Grunde genommen kann so was auch in der Pharmazie oder Teilgebieten der Experimentalphysik ganz ähnlich vorkommen.

Jeder einzelne Kasten steht für einen Analyseschritt – die Bezeichnungen erschließen sich eher den Anwendern. Wesentlich für den Workflow ist eine Eigenschaft, die durch die Abbildung nicht deutlich wird: Er ist skalierbar. Das heißt, bestimmte Analyseschritte werden bei mehr Eingabedateien mehrfach ausgeführt. (Das ist für unseren Punkt nicht wichtig. Aber für mitlesende BioinformatikInnen, die daran denken “Pipelines” zu publizieren, möchte ich das nicht unerwähnt lassen.) Uns interessiert die verwendete Software, also schauen wir uns mal das zentrale Programm im “kallisto_quant”-Schritt an. Es wird z. B. so aufgerufen (im Detail können und werden Programmaufrufe abweichen):

kallisto quant -i $input.idx -o $output

Auch hier: Ein Aufruf in einem Script mit einem Eingabe “$input.idx” und einer Ausgabe “$outupt”. (Und noch eine für AnwenderInnen nicht unwichtige Eigenschaft des Workflows ist: Er abstrahiert alle Programmaufrufe und kümmert sich um Setzen von Parameter, Ein- und Ausgaben).

Visualisierung ist wichtig!

Alle diese Software läuft ohne, dass man zuschauen kann, was passiert – die Ausgaben geschehen in (z. T. nicht menschenlesbare) Ausgabendateien. Abgesehen von Randgebieten spielt real-time-computing, also Software zur unmittelbaren Aufnahme oder Steuerung von Prozessen, keine Rolle. Ein Beispiel für ein solches Randgebiet ist die eingangs genannte Mikroskopie oder auch Messrechner in der Experimentalphysik. Ich zum Beispiel habe die Kleinwinkelstreudaten (boah, ist der Wikipediaeintrag dünn!), Neutronenstreudaten und optische Daten für meine Dissertation auch “live” aufgenommen (lies: den Detektoren, beim Detektieren mittels graphischem Display zuschauen können). Die dafür notwendigen Applikationen sind auch alles relevante Programme im Sinn “wissenschaftlicher Software” – doch Datenauswertung und Simulation geschah in allen mir bekannten Bereichen zumeist nicht interaktiv. Wissenschaftliche Simulation und Datenanalyse ist zum allergrößten Teil Stapelverarbeitung – in all ihren Ausprägungen (der verlinkte Wiki-Artikel liest sich etwas altbacken, aber korrekt) – es geht also um automatisierte Übergabe von Ein- und Ausgabedateien um Zeit zu sparen.

Okay, bei Finite-Elemente-Simulationen schaut man sich gelegentlich durchaus an, was gerade simuliert wird. Und vielleicht denkt ihr an eure Arbeit und es zuckt schon in den Fingern: “Aber ich weiß, dass es anders ist, viel visueller und interaktiver!” Kein Zweifel, das wird hier nicht in Abrede gestellt! In meinem Beispiel und häufig bei ähnlichen Anliegen werden Plots durch Skripte bei Auswertung der Workflowergebnisse erstellt. Und, wie gesagt, der Artikel erhebt keinen Anspruch auf eine voll umfassende Beschreibung, sondern auf eine Beschreibung der wesentlichen und häufigsten Anwendungstypen von Software in der Wissenschaft.

Unterschlagene Moden

Was jetzt völlig unterschlagen wurde, sind die großen Moden der “computational science”:

künstliche Intelligenz – die nenneswerten Anwendungen sind ebenfalls alle zwar mit Visualierungstools versehen, aber i.d.R. auf der Kommandozeile zu instrumentarisieren und die Hauptrechenzeit findet “unsichtbar” statt (Beispiele: Tensorflow/pyTorch, sklearn)
Parallelisierungstools für anderweitig nicht oder nicht hinreichend parallelisierte Anwendungen (für “loosly coupled problems” für die Fachleute) – Hadoop/Spark (nennenswert, wenn auch anderer Natur: GNU parallel)

Dies sind auch alles Techniken, die auf Anwenderseite zumindest Skriptingfähigkeiten voraussetzen. Auch da gibt es, im Blog beschriebene, Ausnahmen, die jedoch allenfalls Nischen besetzen.

Und wie findet man solche Software?

Die Informatik publiziert zuweilen in Konferenzzeitschriften und Tagungsbänden. Andere Wissenschaften überwiegend in Fachzeitschriften (wie es darum in der Bioinformatik bestellt ist und warum das ein Problem ist, kann man gerne nochmal nachschlagen). Dann, mit ein wenig Glück, liegt der Quellcode auf einer Hostingplattform einer Uni oder auf github. Mit ein wenig mehr Glück kann man dann auch herunterladen und nutzen. Geht halt nicht immer. Doch obwohl solch ein Schrott – Verzeihung! – an der Publikationstagesordnung ist, bestimmt er zwar das Publikationsgeschehen, aber nicht das Bild der Anwender – aus guten Gründen. Was funktioniert mag Fehler enthalten, aber nur was wenigstens halbwegs funktioniert, findet Anwendung in der Breite.

Zum Abschluß

Wer jetzt eine Definition erwartet hatte, wurde enttäuscht. Es hilft nur den vielen Links nachzugehen, in diesem Artikel und den verlinkten Artikeln zum Blog und natürlich auf github** – oder sich wirklich tief, tief einarbeiten in bestimmte Felder. Software in den Naturwissenschaften dominiert in Zahl der Veröffentlichungen alle anderen Wissenschaften und mag von Feld zu Feld sehr unterschiedlich sein. Der gemeinsame Nenner der Communitysoftware ist häufig: Kommadozeilenorientierung, läuft nicht auf Windows (es sei denn unter WSL oder eben in irgendwelchen portablen Skriptsprachen geschrieben) und man muss Dokumentation lesen, um sie anzuwenden – Nutzerfreundlichkeit geht häufig anders.

Man darf sich also klar machen: Alles was auf Anwenderseite ein Übermaß Gefrickel voraussetzt findet keine Verbreitung und ist somit wenig repräsentativ. So kenne ich von früher Leute, die Fouriertransformationen en masse mittels Postscript auf Druckerkarten rechneten – war billig, aber nicht portierbar; nie wieder was davon gehört. Wie wir unlängst lernten kann man auch via Javascript auf Excel(dateien?) zugreifen und rechnen – auch das wird wohl eher keine weite Verbreitung finden. Was irgendwo(!) irgendwie(!) funktioniert ist nicht repräsentativ für irgendeine Art von Software, inklusive aller anderen genannten und ungenannten Ausnahmen. Was keine weite Verbreitung findet (mindestens tausende Installationen) ist eine Ausnahme. Vorsicht vor Strukturextrapolation!

++++

Insbesondere ist mir bewusst, dass Ingenieursbüros oftmals andere Software einsetzen, eine andere Herangehensweise an Datenanlysen pflegen und wenig von einer Welt (wissenschaftliche Datenanalyse) in die andere (technische Anwendungen) übertragbar ist. Strukturextrapolationsfallstricke lauern auch umgekehrt.

** Ja, auch diese Plattform darf man, zu recht, kritisch sehen.

Schreibt Bugreports!

2022-03-20T21:43:02Z

Alle Software – sofern nicht sehr klein oder sehr lange gepflegt (Jargon: “gut abgehangen”) – enthält Fehler. Immer. Wissenschaftliche Software insbesondere, denn sie ist oft komplex, leider zu oft von Leuten entwickelt, die wenig Ahnung von Softwareentwicklung haben (was zusätzliche Fehlerquellen einführt) und nicht zuletzt wird sie häufig als proof-of-concept entwickelt (sie war also niemals zum produktiven Einsatz gedacht).

In dieser Gemengelage wird Software verpackt und anderen Forschenden zur Verfügung gestellt, denn in der Regel installieren diese ihre Software zur Auswertung nicht von “scratch”, also von nicht von Grund auf selber. Man verwendet stattdessen paketierte Software – in der Bioinformatik mittels von Bioconda, auf Hochleistungsrechnern eher mit Hilfe Softwarepaktmanagern wie spack oder easybuild*. Wie auch immer: Jemand packt die Software, jemand installiert diese und – vielleicht die/derselbe – jemand anders nutzt sie.

Es wird also keine große Überraschung sein, auf wen da geschimpft wird, wenn etwas nicht klappt, oder? Immer dann, wenn Moleküle in der Simulation explodieren, das Sequenzanalyseprogramm segfaulted oder man schlicht weiß, dass das Ergebniss falsch sein muss – die Admins oder Paketmanager sind schuld! Schließlich senden wir die Montagsexemplare unseres Konsumgutrauschs ja auch nicht an den Hersteller, sondern an das Unternehmen, welches uns den Kram verkauft hat, oder? Bei wissenschaftlicher Software sind die Paketmanager bloß ganz sicher der falsche Adressat: Sie können nicht für abertausende Pakete mit jeweils abertausenden oder gar Millionen Zeilen von Code die Wartung übernehmen, sondern nur das Paket warten und so garantieren, dass die gewünschte Software irgendwie installiert werden kann.

Wenn ihr also wissenschaftliche Software nutzt und diese gibt eine Fehlermeldung aus oder stürzt sang- und klanglos ab, dann habt ihr zwei Möglichkeiten:

Ihr schreibt den Administratoren eures Systems / den Paketmanagern / eurer Großtante und hofft, dass irgendjemand euer Problem mit der Software löst.
Oder ihr schreibt einen sogenannten Bugreport (auch issue report genannt) auf der Entwicklungsseite der fraglichen Software.

Na? Welche Option ist wohl vielversprechender, wenn euch um die Lösung eures Problems gelegen ist?

Was hat das mit der Reproduzierbarkeitskrise zu tun?

Die Antwort auf diese Frage liegt auf der Hand: Fehlerhafte wissenschaftliche Software** kann zu Fehlern in der Auswertung von Daten oder in Simulationen führen. Beseitigte Fehler können Fehlschlüsse in Publikationen vermeiden helfen – Fehlschlüsse, die sonst gar nicht auffallen. Und vor allem können behobene Fehler einem das Leben einfacher machen und im Extremfall den Unterschied machen zwischen einer Publikation, die man schreiben kann, weil Ergebnisse vorliegen, die man anderweitig gar nicht erhalten hätte.

Darüber hinaus wird in der Bioinformatik wahrlich viel Schrott publiziert. Zu oft wird auch einfach nach dem fire-and-forget-Prinzip publiziert – ist das Paper einmal geschrieben, wird sich um die Software nicht mehr gekümmert. Das ist für Anwender selbstverständlich ein Problem: Es steht ja geschrieben, dass die veröffentlichte Software das eigene Datenanalyseproblem zu lösen vermag. Dumm, wenn das nicht der Fall ist. Einen Bugreport zu schreiben, kann die EntwicklerInnen dazu treiben, das beschriebene Problem zu lösen und ihre Software zu verbessern. Gibt es keine Antwort, keine Lösung, ist zumindest für andere Nutzer klar, dass dieses Software-Projekt bereits den Gang in die Vergessenheit angetreten hat – aller Versprechungen im “Paper” zu Trotz. Und das ist für Dritte wertvoll, können diese doch unmittelbar sehen, dass sie sich nach Alternativen umblicken müssen.

Wie geht das – einen Bugreport schreiben?

Ein Teil der Motivation kann somit zwar Frust sein, aber damit nicht noch mehr entsteht, hier ein kurzer Leitfaden zum Schreiben von Bug- oder Issuereports, damit eure Kritik – und das ist ein Bugreport auch immer – produktiv ist:

Ihr merkt es schon, der Blog, der ziemlich viele Begriffe eindeutscht, besteht hier die ganze Zeit auf “Bugreport” oder gerade eben sogar “issue report”. Das hat einen einfachen Grund: Auch unter Deutschen ist die lingua franca von Technik und Wissenschaft Englisch. Und da sich die Angelegenheit in der wissenschaftlich-technischen Sektion des Internets abspielt: Bitte gutes Englisch.
Bitte knapp und höflich. — Höflich sollte selbstverständlich sein, ist es leider nicht. Bitte kein Kommandoton und keine Unterstellungen von Fehlerhaftigkeit. Und bitte nicht in epischer Breite erläutern, was der eigenen Ansicht nach schiefläuft, sondern sich das Wesentliche beschränken.
Das Wesentlich sollte sein: Was habe ich erreichen wollen? Was habe ich versucht? (Achtung: Das sind zwei verschiedene Dinge!) Und natürlich: Was ist passiert? Beziehungsweise: Was habt ihr beobachtet? Und an der Stelle sind dann Logfiles oder Tracebacks (das Zeug, was manche Programme noch ausschreiben, wenn sie röchelnd aufgeben) oder schlicht Fehlermeldungen anzuhängen (und außer bei graphischen Benutzeroberflächen: Bitte keine Screenshots, denn die sind oft lästig, weil man bei wissenschaftliche Software oft nach irgendwelchen Zeichenketten suchen muss und dann als Korrektor peinlich genau abtippen muss. Wie oft habe ich schon nach den Logfiles fragen müssen … Na, jedenfalls: Wenn ihr diesen Punkt richtig macht, spart ihr euch und den Entwicklern Zeit.)
Jetzt wird es spezifischer: Wenn ihr einen Bugreport zu einer Software angebt, sollten die Entwickler folgende Informationen haben:
1. Die Version der Software. Das ist aus verschiedenen Gründen für die Entwickler sehr wichtig: Habt ihr eine ältere Version, kann es sein, dass der Fehler längst behoben wurde oder sich der Code an entscheidender Stelle verändert hat. Ist eure Version aktuell, ist das Problem womöglich noch drängender. (Und die Chance auf schnellere Lösung steigt etwas.)
2. Wie wurde die Software installiert? Aus den Quellen oder via Conda, brew, etc.?
Bitte keine Duplikate. Wenn es euch auf der Githubseite entgegenschreit, dass “euer” Bug schon berichtet wurde, braucht ihr nicht in die Kerbe zu hauen. Und außer in Ubuntuforen ist es auch verpönt ein simples “for me this does not work, too!1!!11!!!” oder ähnlich vielsagende Kommentare zu schreiben. Ihr könnt etwas beitragen? Gut. Sonst wartet einfach, bis der Bug “gefixt” ist oder – wenn das schon länger zu dauern scheint, hakt einfach mal freundlich nach, ob es Fortschritte gibt.
Manchmal ist es sinnvoll, die Daten zu zeigen, die zu einem Crash führen. Selbstverständlich kann man nun nicht terrabyteweise Daten hochladen – Zeigt die Zeilen, die zum Crash führen und wenn es binäre Daten sind, versucht vielleicht eine kleine Datei zu schreiben, die man doch hochladen kann.

Ach, und nulltens müsst ihr natürlich den Flecken im Internet finden, wo ihr eurer Report loswerden könnt. Wenn die Software eures Vertrauens das nicht anzeigt und die Suchmaschine eures Vertrauens kein eindeutiges Ergebnis liefert, dann habt ihr Pech gehabt. Leider gibt es immer noch Macher wissenschaftlicher Software, die ihren Code nicht rausrücken und zur Diskussion stellen. Und wenn ihr keine Ahnung habt, wie ihr anfangen sollt … normalerweise gibt es schon einige Beiträge in der Bug- oder Issuespalte. Einfach mal reinschnuppern, dann bekommt man schnell eine Ahnung davon, wie die Leute drauf sind und wie man am besten anfangen kann.

Hier noch mal der Vergleich, zwischen einer Software, die ihre Nutzer ernst nimmt und einer Software, die das gar nicht erst versucht:

Beispiel für eine aktiv entwickelte Software (links) und ein eben erst entwickeltes Projekt, wo der Autor des Artikels erst mal naiv gefragt hat, wo der Code ist (rechts). Nicht alles “issues” sind bug reports, manche drehen sich um neue Funktionalität oder allgemeine Fragen. Keine oder ungenügende Antworten sind auch ein Indikator für die Qualität wissenschaftlicher Software. Im Falle von snakemake ist die Zahl der “issues” somit vor allem Indikator einer lebendigen “Community”.

Und umgekehrt …

Ok, die Liste oben erhebt keinen Anspruch auf Vollständigkeit – vielleicht fallen euch noch ein paar gute Punkte ein? Her damit! Wir können uns aber auch fragen, was erwarten eigentlich EntwicklerInnen? Und das wurde auch gemacht (dieses Buch, Kapitel 24). Da stehen dann auch so Punkte wie “gute Grammatik ist wichtig” – und das stimmt mit meinem Punkt 1 überein, außerdem kann ich bestätigen, dass manche Bugreports mich absolut ratlos zurücklassen, weil die Grammatik unterirdisch ist (und dabei meine ich nicht allfällige Fehler wie in diesem Blogpost). Ein bisschen Mühe muss halt sein.

Niemand ist “nur” AnwenderIn

Gerade von Bioinformatik-AnwenderInnen höre ich immer wieder*** ein “Aber, ich habe ja keine Ahnung …” mit Bezug auf IT-Dinge. Das ist selbstverständlich Unsinn. Wer wissenschaftliche Software anzuwenden versteht, hat bereits einen Fuß in der IT-Welt. Ebenso wie Wissenschaft von der Gemeinschaft aller Forschenden profitiert und man sich (im Idealfall) wissenschaftlich-technische Hilfestellung gibt, kann man auch in IT-Dingen der Gemeinschaft was zurückgeben und den EntwicklerInnen wissenschaftlicher Software Feedback geben. Für wen das nicht Grund genug ist: Wenn ihr wegen eines Softwarefehlers in eurer Arbeit nicht mehr weiter wisst, ist es spätestens aus Eigeninteresse Zeit und Grund tätig zu werden und einen Bugreport zu schreiben.

+++

Der Unterschied liegt a) in der Performance – weil Conda installierte Software nicht optimal kompiliert wird, sondern auf jedem System laufen soll und b) darin, dass Cona-Paketmanager so ziemlich jede Software unabhängig von Lizenzfragen und ähnlichen Kinkerlitzchen bereitstellen.

** Wie immer geht es um wissenschaftliche Software. Bei der Bürosoftware eurer Firma habt ihr womöglich andere Bedingungen (z. B. eine Telefonnummer, wo der Softwarekummer abzuladen ist).

*** direkt oder Hörensagen

Wird ARIA helfen der Wissenschaft des Post-Brexit Britain zu helfen? – Oder ist es eine wirkungslose Maßnahme unter vielen?

2022-02-19T07:25:21Z

Über Brexit wurde in den deutschen Medien schon verdammt viel geschrieben. Hauptsächlich über wirtschaftliche Aspekte, aber wir dürfen feststellen, dass schon alles von jedem gesagt wurde und auch Häme – vor allen in den Kommentarspalten – nicht zu kurz gekommen ist. Dies jedoch ist ein Wissenschaftsblog und mich jedenfalls interessiert an dieser Stelle, was der Einfluss des Brexits auf die britische und europäische Wissenschaftslandschaft ist. Das ist leider notorisch schwierig: Was ich hörte, reicht allenfalls für den Stammtisch. Zwar gab es Kommentare in wissenschaftlichen Zeitschriften (Beispiel), noch aber ist es für abschließende Aussagen zu früh. Es gibt auch schon einige Programme, welche die Folgen des Brexits für die Wissenschaftslandschaft mildern sollen, doch auch hier ist noch nicht zu sagen, welche Kraft diese entfalten können. Beim Turing Scheme, welches die Lücke füllen soll, welche das Erasmus Programm in Britannien hinterlassen wird, sind Zweifel zur Effektivität angebracht – aber auch hier muss noch etwas Wasser die Themse hinunterfließen, bevor man sagen kann, wie es angenommen wird.

Doch jetzt gibt es ARIA – die Advanced Research and Invention Agency! Die Idee eines gewissen Dominic Cummings – ehemaliger Chefeinflüsterer von PM Boris Johnson. ARIA ist eine neue Behörde, die sich an ihr erfolgreiches Vorbild DARPA anlehnen und riskante Forschungsprojekte fördern soll. Um zu beurteilen, wie gut eine Wissenschaftsbehörde sein kann, sollte man sich ihre Machtfülle und die Fülle des Füllhorns anschauen. Achtung – besser ihr sitzt gut, denn jetzt wird aus dem Gesetz bzw. den Explanatory Notes zitiert!

Was soll ARIA machen?

This clause states that ARIA may, or commission or support others to, conduct scientific research, develop and exploit scientific knowledge and collect, share, publish and advance scientific knowledge.

Eine Behörde also, die forschen soll? Und wie?

Subsection (1)(a) allows ARIA to carry out a literature research review with a view to identifying areas which would benefit from further scientific exploration or carrying out laboratory work itself, for example.

Ah! Man will die Literatur durchforsten, um Gebiete zu identifizieren, welche weitere Forschung vielversprechend erscheinen lassen! Oder etwas konkreter:

a. carry out, commission, and fund scientific research;
b. support industry and encourage innovation by developing and exploiting the fruits
of that research; and
c. collect and share scientific knowledge.

Also, man will die Behörde selber forschen lassen (so was gibt es auch hierzulande, das allein ist keinen Lacher wert!), die Behörde soll Mittel vergeben und das angehäufte Wissen auch teilen. Also, wie werden Mittel vergeben?

In exercising its functions to support others, ARIA may convene meetings and conferences to discuss how research can be progressed. ARIA may also provide financial support including making grants, loans, investments in companies or other entities, or any other payments including prizes.

Dies alles braucht etwas Kontext. Um zu erkennen, was fehlt, können wir vergleichen – zum Beispiel mit UKRI (UK Research and Innovation): Um dort in den Vorstand zu kommen, braucht es Expertise. Bei ARIA ist das, zumindest im Gesetz, nicht gefordert. Das UKRI kann ebenfalls Firmen gründen oder Joint Ventures anstoßen, braucht aber die Zusage der Aufsichtsbehörden, vertreten durch den Chief Scientific Advisor. Informationen zu ARIA können die BürgerInnen des Königreichs auch nicht über den Freedom of Information Act einfordern – jedenfalls weist das Gesetz keine Verbindung aus. Mir drängt sich die Frage auf, ob das eine liberalisierte Neuauflage existierender Institutionen ist oder doch mehr?

Alle Unterstützung für ARIA wird von Bedingungen abhängen – also auch von möglicher Rückzahlung gewährter Kredite. Und ARIA soll ja explizit Projekte fördern und auch Kredite gewähren, wenn das Risiko hoch ist.

(ARIA) may give particular weight to the potential for significant benefits to be achieved or facilitated through scientific research, or the
development and exploitation of scientific knowledge, that carries a high risk of failure.

Das alles klingt vielversprechend im wahrsten Wortsinn, doch ist die Gefahr nicht zu übersehen, dass hier viel Geld (wie viel weiß man noch nicht) den Bach runtergespült wird. ARIA ist dem Parlament verantwortlich, kritische Fragen sind also zu erwarten.

Jedem neuen Gesetz wohnt das Risiko inne, verbessert werden zu müssen oder gar wieder zurückgenommen zu werden. Meine Befürchtung ist: Diesmal ist es ein die Wissenschaft betreffendes Gesetz, dass dem Brexit-Zeitgeist (neoliberal, unausgegoren, wo Kontrolle häufig fehlt) geschuldet ist, was auf den großen Haufen der Brexit-Folgen-Gesetzgebung gestapelt wird. Über eure Einschätzungen würde ich mich freuen. Vielleicht ist jemand von euch direkt betroffen?

Coronaleugner machen Wissenschaft!?

2022-02-16T15:27:43Z

Eines kann niemand übersehen haben: Die vergangen zwei Jahre haben dem Wissenschaftsverständnis ungemeinen Auftrieb gegeben. “R-Wert”, “expotentielles Wachstum”, “ACE2-Rezeptor”, “Spike-Protein” und sehr viel mehr Begriffe der Virologie, Physiologie, Epidemiologie und Aerosolforschung werden von Menschen verwendet, die nie mit Medizin und Naturwissenschaft in Kontakt kamen – und zu großen Teilen durchaus sachkundig. Coronapodcast(s), Blogs und viele wirklich gute Zeitschriftenartikel, Fernsehbeiträge und mehr haben wirklich gute Wissenschaftskommunikation geleistet. Als Proteinbiophysiker habe ich früher Schwierigkeiten gehabt, anderen Menschen überhaupt nahezubringen, was ein Protein ist – im Alltag bleibt halt nicht unbedingt das Abiturwissen haften.

Insofern wurden Studien und Veröffentlichung von Datenbanken vom RKI und seinen internationalen Pendants auch für die Coronaleugnerszene wichtig – bei Ex-Wissenschaftlern, ebenso wie bei manchen Ärzten, sogar bei evangelikalen Pokerspielern. Wer sich nun auf die Seiten der Leugnerzene gibt (die ich hier nicht wieder verlinke, sie haben ausreichend viele BesucherInnen), findet leicht Diskussionen zu “Beweisen” und “Korrelationen” – ungefähr auf Niveau der Storchenstatistik – immer wieder neu verpackt und insgesamt wenig überraschend.

Doch wurde ich auf den “Beweis” aufmerksam, dass “die Impfung mit Genmaterial” (gemeint war mit einem mRNA-basierten Impfstoff) die sportliche Leistung schmälert. Die anderen Schlußfolgerungen erspare ich der geneigten Leserschaft hier ebenfalls, denn interessant ist es, weil der “Beweis” in einem dedizierten Coronaleugnerjournal erschien, dem “Primary Doctor Medical Journal – A peer-reviewed journal by physicians and scientists without commercial influence“. Und das bedeutet, mit anderem Worten, einigen Protagonisten der Leugnerszene ist die wissenschaftliche Glaubwürdigkeit so wichtig, dass sie sogar eine eigene Zeitschrift gründen!

Ein paar Dinge sind mir direkt aufgefallen, also ich habe am 30. Januar dieses Jahres nachgefragt:

Dear Sir or Madam,

Thank you for setting up the PDM-Journal.

I have a couple of questions concerning the quality of articles and the journal in general. I once helped setting up a journal and know that during the first issues, some things might not be working, yet.

which review criteria are applied?

would it not be helpful to require authors to supply their raw data?

articles do not have a digital object identifier (DOI).

the journal apparently does not have an ISSN and is not listed in PubMed. Citing articles is hence impaired. Are there any plans to change this?

These are all aspects which might help, such that articles are not automatically discredited.

Kind regards

Ok, das mit der eigenen Hilfe zur Einführung einer wissenschaftlichen Zeitschrift ist nicht falsch, aber stark übertrieben. Vielleicht hätte ich auch noch mehr Honig um den Bart schmieren sollen? Eine Antwort jedenfalls bleibt bis heute aus – quelle surprise.

Das alles sind jedoch wichtige Fragen und man ahnt es schon: Bei allen Kriterien schneidet diese “Zeitschrift”(*) schlecht ab. Nun, dem – wahrscheinlich nicht erfolgten – Review können wir uns gleich zuwenden, zunächst zu den formalen Fragen: Ohne Eintrag in die gängigen Literaturdatenbanken, wozu es DOI und ISSN braucht, kann man nicht verlässlich danach suchen, Änderungen sind möglich und insgesamt ist man auf Verbreitung in einschlägigen Medien angewiesen. Dies alles ist schon mal wenig Vertrauen erweckend. Und ist es überhaupt eine “Zeitschrift”? Es gibt weder ein Impressum, noch sonstige Hintergründe zu den Machern hinter der Seite.

Aber halt! Da gibt es ja jenen “Beweis”, dass Impfungen mit Cominarty die sportliche Leistung von SchülerInnen nachhaltig einschränken. Und wir sollten zur Sache kommen und uns nicht mit Formalitäten aufhalten:

Was wurde wie untersucht?

Letztlich haben die Autoren zwei Sporttrainer wurden befragt, wie gut sie die sportlichen Leistungen von zwanzig SchülerInnen einschätzten:

Fifteen of these student athletes are high school students, and the rest are younger. The student athletes spoke freely and informally with the coaches about who received the vaccine and how they felt afterward, and who did not receive any vaccines. The student athletes’ parents’ choices regarding vaccination of their children were unknown to the coaches or to us until after those injections. The parents’ choices regarding vaccination of their children had spontaneously formed an experimental group versus a control group, with none blinded.

Mit anderen Worten: man geht davon aus, dass dies Wissenschaft ist, denn man hat ja eine Kontrollgruppe. In der Veröffentlichung fehlen sämtliche quantitativen Daten (z. B. sportliche Leistung vor und nach Impfung). Auch die Angaben zu Trainingszeiten der Individuen (saßen die Vorsichtigen und Geimpften eine Zeitlang zu Hause, während die Ungeimpften sorglos weiter trainierten?) fehlen. Nicht zuletzt fehlen die Daten dieser Untersuchung, es gibt kein “supplementary material”, also Anhänge zur Veröffentlichung. Und vor allem: eine Verblindung fehlt, bei der derzeitigen Stimmung ist nicht auszuschließen, dass die Einstellung der Autoren die Beurteilung beeinflusste. Die gesamte Veröffentlichung entbehrt jeder Statistik.

Andererseits werden einschlägige Verschwörungsseiten als wissenschaftliche Quellen zitiert, u. a. der hier auf rupture de catenaire so beliebte Herr Bhakdi – und zwar auf eine weitere obskure Seite, die mittels zweifelhafter Behauptungen und anekdotischen Belegen Tote ursächlich in Zusammenhand mit Impfungen gegen SARS-CoV-2 bringen will. Von lediglich sieben Zitaten weist nur eines auf eine Veröffentlichung in einem etablierten wissenschaftlichen Journal.

Andere Veröffentlichungen des Journals sind von ähnlicher Qualität. Eine Unterscheidung zwischen wissenschaftlicher Arbeit und Diskussionsbeitrag findet nicht statt. Dies alles rechtfertigt in meinen Augen das Siegel: reine Cargo-Kult-Wissenschaft!

Wie soll es weitergehen?

Wissenschaft und Wissenschaftskommunikation sind mir wichtig. Der Auftrieb, den die Wissenschaft insgesamt durch die drängenden Fragen unserer Zeit erfährt, ist gut – und provoziert einigen Widerstand, denn offenbar ist “Wissenschaft” für einige Menschen ein rotes Tuch. Auch hier im Blog gab es immer wieder Kommentare oder direkte Nachrichten an mich aus der Coronaleugner- oder rechten Szene. Wenn es überhaupt Belege für die dort erbrachten Argumente gab, dann oft von der Qualität, die hier in diesem Beitrag diskutiert wurde. Nun, über Wissenschaft können wir gerne diskutieren und evidenzbasiert sollten wir diskutieren (wo möglich). Aber eine Angabe einer glaubwürdigen Quelle, welche die Kriterien einer wissenschaftlichen Arbeit erfüllt – das sind Mindestforderungen für eine gute Diskussion. Irgendwann ist die Pandemie vorbei und es ist bereits absehbar, dass die gesellschaftlichen Spannungen damit nicht vorbei sein werden. Ich hoffe hier auf scienceblogs bekommen wir eine bessere Diskussionskultur als auf den Coronaleugnerseiten hin, vielleicht wird der Verweis auf diesen Beitrag helfen oder – je nach Qualität des Einwands – auch eine Replik in Kurzform bringen. Zum Beispiel: [12,14,18,21,28] – was beim diskutierten Artikel fällig wäre und womit sich längliche Repliken in Form dieses Beitrags einfach sparen ließen …

(*) “Zeitschrift” in Anführungsstrichen, denn es ist ja nur eine Webseite und alles das, was eine wissenschaftliche Online-Zeitung ausmacht – z. B. interne Datenbank mit Suchfunktion, DOIs, etc. – fehlt.

Zutaten zur Reproduzierbarkeitskrise (10) – Noch einmal EXCEL in der Bioinformatik

2022-02-12T14:20:48Z

Puh, ich weiß, über Excel in der Bioinformatik gab es hier schon einen Beitrag in dieser Serie. Und zuvor auch schon mal in anderem Kontext. Und jetzt, nach einer kleinen Blogpause, noch ein Artikel?

Ja, denn im Laborjournal, einer Zeitschrift, die im deutschsprachigen Raum in ziemlich vielen biochemisch arbeitenden Laboren gelesen wird, stand im letzten Jahr ein Kommentar zu Excel in der Bioinformatik. Und weil ein Laborjournalartikel bestimmt Beachtung finden wird, kann ich mir nicht verkneifen einen Teil zu unterstreichen und einen Teil zu kritisieren – in der Hoffnung, dass wenigstens ein paar in meiner Leserschaft bei ihrer nächsten Publikation von EXCEL oder anderen Klick-und-Paste-Programmen fernzuhalten und einen kleinen Beitrag zur wissenschaftlichen Reproduzierbarkiet / Nachvollziehbarkeit zu leisten. Und auch zur Rechtfertigung, wurde ich doch unlängst von Nutzern unserer Rechner darauf hingewiesen, dass es schade ist, keinen Service zu bieten, sodass die Ergebnisse in EXCEL geladen werden könnten.

Sehen wir davon ab, dass Tabellenkalkulationsprogramme wirklich super Werkzeuge sind und guten CSV-Import anbieten (und man eigentlich erwarten darf, dass Bioinformatiker in der Lage sein sollten im Netz zu suchen und eine Bibliothek zu verwenden, die das Ausschreiben in ihr favorisiertes Format direkt ermöglicht), klingt ja schon durch: Das ist nicht sinnvoll! Und warum es nicht sinnvoll ist, wird deutlich, wozu es – außer Gliederung und Präsentation von Daten – genutzt wird. Nämlich, um einfache Bezüge, Vergleiche und Rechnungen durchzuführen. Aber das ist doch genau das, wofür Tabellenkalkulationsprogramme da sind, oder?

Wer je eine komplexe Tabelle von Dritten erhalten hat, weiß, dass die Deutung mitunter schwierig sein kann und Weiterarbeit fehleranfällig. Das Laborjournal zitiert denn auch einen Fall, in dem eine Veröffentlichung zurückgezogen werden musste, weil Dinge durcheinander gerieten. Betroffen ist also nicht nur die längst nicht bewältigte automatische Re-Formattierung von Gen-Bezeichnungen, die Monat-für-Monat weiter für viele fehlerhafte Veröffentlichungen “sorgt” (wie auf dieser schönen Seite regelmäßig evaluiert wird). Denn das wäre traurig genug, immer mit dasselbe untaugliche Werkzeug zu nutzen.

Der Rat aus dem Laborjournal …

… ist auch meiner:

Die vielleicht beste Alternative, um große Datenmengen zu analysieren, bieten Skript-basierte Programmiersprachen für statistische Berechnungen und Grafiken wie Python (python.org) und R (r-project.org). Auch ohne lokale Installation lassen sie sich in Cloud-Oberflächen wie der Open-Source-App Jupyter Notebook nutzen (jupyter.org). Anfänglich sicher gewöhnungsbedürftig und aufwendig liegen ihre Vorzüge auf der Hand: Alle Nutzer wissen genau, was wie an welcher Stelle durch wen geschieht. Autokorrektur-Funktionen existieren nicht. Jeder Arbeitsablauf lässt sich auditieren. Selbst vorgefertigte Funktionen können begutachtet werden. Alle Software-Versionen sind dokumentiert und Modifikationen in einem Quellcode-Archiv hinterlegt.

Wobei regelmäßigen Besuchern des Blogs sicher aufgefallen ist, dass ich Jupyter-Notebooks nicht uneingeschränkt empfehle …

Wie auch immer, an einem Punkt muss ich deutlich widersprechen:

Diejenigen, die unmöglich auf Tabellenkalkulationen verzichten können, finden in den Open-Source-Programmen LibreOffice und Gnumeric vielleicht attraktive Alternativen. Im Gegensatz zu Microsoft Excel sind sie weniger anfällig für Autokorrektur-Fehler (PLoS Comput Biol., doi: 10.1371/journal.pcbi.1008984), ihre Automatikfunktionen können leicht abgeschaltet werden und sie sind kostenlos verfügbar.

Oft reicht es auch schon, Gen-Listen als simple Text-Dateien in csv-, tsv- oder txt-Formaten zu speichern. Formatierungsfehler macht das unmöglich. Darüber hinaus lassen sich Excel-Dateien mit Web-Tools wie Truke (maplab.imppc.org/truke) und Escape Excel (apostl.moffitt.org) auf Konvertierungsfehler überprüfen. Noch mehr Tipps zu Tabellenkalkulationen bietet der Biostatistiker Karl Broman von der University of Wisconsin-Madison auf seiner Homepage: kbroman.org/dataorg.

Ist doch klar, oder? Wenn ein Teil des Problems mit Tabellenkalkulationsprogramm Nr. 1 ist, dass man Bezüge und Rechnungen nicht immer mit dem Auge kontrollieren kann und automatisierte Kontrolle meist extrem schwer ist bzw. die Fähigkeiten der Anwenderbasis überfordernd ist, ist dann zu erwarten, mit Tabellenkalkulationsprogramm Nr. 2 eine nachhaltige Lösung des Problems zu erreichen? Oder läuft man nicht Gefahr, dieselben Fehler wieder zu machen und zu übersehen?

Aber halt! Da steht doch, es gibt Tools, die einem Sicherheit geben? Stehen ja im Artikel! Doch hier wird versucht, den Teufel mit dem Beelzebub auszutreiben. Die Stunde automatisch dokumentierender Workflows – inklusive des Erstellens publikationsreifer Abbildungen! – hat geschlagen, manuelles Herumfrickeln ist und bleibt fehleranfällig. Sich als ArbeitsgruppenleiterIn darauf zu verlassen, dass Menschen keine Fehler beim manuellen Pflegen von Daten machen ist fahrlässig.

Aber das ist doch so laaaangwierig und kompliziert!

Ok, ok. Die an dieser Stelle fällige Aufforderung ein wenig Skriptingfähigkeit draufzuschaffen bewirkt bei der “reinen” Experimentatorenfraktion häufig Abwehrreaktionen. Verständlich, sind diese komisch-kryptischen Codeschnipsel der Bioinformatiker doch abschreckend. Andererseits sind ein paar Tage mit einem einführenden Buch (freies Beispiel für pandas (einer Bibliothek für die Programmiersprache Python), freies Beispiel für R) sehr gut investierte Zeit für den Anfang einer wissenschaftlichen Karriere (falls es an eurer Uni keine entsprechenden Kurse geben sollte). Also, keine Angst vorm Skripten, lernt coden! Es ist immer wieder nützlich im wissenschaftlichen Alltag und wer es kann, hat nicht nur Vorteile im Publikationswettbewerb, sondern kann auch helfen verlässlichere Publiktionen “rauszuhauen”.

Behaupten kann man viel, aber wenn seit Jahr und Tag überall dasselbe geschrieben steht (nicht zu vergessen viele Videos, die auch ins selbe Horn pusten (Beipspiel)), kann man sich die Sache ja mal überlegen, oder?

OpenAccess – das Modell stellt sich selbst ein Bein, schadet womöglich der Qualität und die öffentliche Hand hat immer noch nicht begriffen

2021-12-05T17:31:45Z

Dieser Tage tat ich das, was Wissenschaftler gelegentlich machen: Ich reichte eine Arbeit zur Veröffentlichung ein. Und so viel Sympathie ich auch der Open Access-Bewegung entgegenbringe, gestehe ich diese Veröffentlichung nicht gemäß dem Open Access-Modell eingereicht zu haben …

Betrachtungen

Wenn wir eine Sache – als WissenschaftlerInnen – in der Pandemie gelernt haben, so ist es der hohe Wert schneller und qualitativ hochwertiger Forschung. Daran ändert auch der gelegentliche Missbrauch des Systems nichts: hochqualitative Forschung ließ uns Impfstoffe in weniger als einem Jahr entwickeln und ließ uns erkennen, welche Maßnahmen zur Bekämpfung und Kontrolle der Pandemie wirklich effektiv sind. Könntet ihr euch vorstellen, wie sich diese Pandemie ausgesehen hätte, hätten wir das scharfe Schwert der Wissenschaft willentlich abgestumpft?

Das Problem mit dem wissenschaftlichen Veröffentlichungswesen ist, dass es zugleich lahm und verdammt teuer sein kann (und somit teilweise auch Ergebnisse produziert, die nicht allen Teilnehmern im großen “Spiel Wissenschaft” zur Verfügung stehen). Es geht nicht nur um das Equipment, welches man so dringend braucht oder das qualifizierte Personal – der Veröffentlichungsprozess kann selber sehr teuer sein.

Versuchen wir mal kurz zu beschreiben, wie der Prozess funktioniert – für alle, die den Zirkus noch nicht kennen. Es ist völlig verrückt und hier ist die Krux: Als WissenschaftlerIn musst du veröffentlichen und deine Resultate der kommunizieren – es heißt nicht umsonst “publish or perish”. Und es braucht ziemlich viel Zeit, eine wissenschaftliche Veröffentlichung, gemeinhin “Paper” genannt, zu schreiben: Es müssen bestimmte Richtlinien eingehalten werden und eine ganze Reihe von Bedingungen wollen erfüllt sein. Das Manuskript wird schlussendlich einem Begutachtungsprozess unterzogen durch ExpertInnen aus demselben Feld. Die verlangen meist ein paar Änderungen und dann, mit ein wenig Glück, wird deine Arbeit im Lauf einiger Monate durch die gewählte Zeitschrift veröffentlicht (kann manchmal auch ein Jahr oder mehr dauern). Je höher das Prestige der Zeitschrift, desto höher die Wertschätzung deiner Arbeit, weshalb die meisten in deinem Feld versuchen, die “besten” Zeitschriften zur Veröffentlichung ihrer Arbeiten zu bewegen.

Soweit so gut, allerdings … wenn du eine einzige Arbeit lesen willst, kann das schon mal 30 bis 40 Euro kosten. Du möchtest ein paar dutzend lesen? Das kann schnell ins Budget gehen. Hierzulande geht es zulasten der öffentlichen Hand, die das Geld – größtenteils nicht genug – den Universitätsbibliotheken gibt, die einen Pauschalzugriff mit den Zeitschriftenverlagen aushandeln. Es gibt zwar Nachlässe, doch werden pro Forschungseinrichtung und Fach große Beträge fällig – pro Jahr deutschlandweit über 100 Millionen Euro.

Und hier wird es noch interessanter: fürs Schreiben der Veröffentlichungen gibt es keinen Cent extra. Für das Begutachten gibt es in der Regel auch keinen müden Groschen. So wer verdient daran? Die Leute, denen das Journal gehört. Nicht mal das Copyright liegt bei den Forschern – auch dies ist meistens bei den Verlegern.

Und an dieser Stelle wird hoffentlich deutlich, warum es eine starke Gegenbewegung gibt. Wissenschaftliche Veröffentlichungen sollten frei zugänglich sein! Bezahlen alle Nationalstaaten für die Forschung und der Bezug von Ergebnissen steht dem größten Teile der Gesellschaft (allen Nichtbeschäftigten von Forschungseinrichtungen) nicht kostenfrei zur Verfügung stehen, ist das widersinnig! Hier kommt Open Access ins Spiel – klar, publizieren kostet immer noch Geld (Editoren, Layout, Datenbanken, Webseiten, etc.), doch nun ist es weniger und wird von den Forschenden bezahlt, wenn ihre Arbeit zur Veröffentlichung akzeptiert wird. Klasse Sache, aber letztlich nicht so günstig wie erhofft. Denn in den letzten Jahren sind die Preise für alle, die ihre Arbeiten auf diese Weise der Welt zur Verfügung stellen wollen, immer weiter gestiegen. Die Universität Cambridge unterhält da eine gute Übersicht:

Zusammenfassung der Veröffentlichungskosten (Article Processing Charges, APC) nach Verlagen in Open Access-Welt. Es macht manchmal einen Unterschied, ob man Mitglied einer Organisation ist oder nicht (APC from vs. APC to) und manche der gelisteten Verlage bieten auch ein Hybridmodell an: Hier kann man auswählen, ob der eigene Artikel frei verfügbar sein soll oder eine Forschungseinrichtung erst ein Abo des Verlags erwerben muss, damit die Artikel für die eigenen Beschäftigten verfügbar sind.

Im vergangenen Jahr schoss Nature – eine der prestigeträchtigsten wissenschaftlichen Zeitschriften überhaupt – den Vogel ab: 9500 € damit ein Open Access-Artikel veröffentlicht werden kann, aber mindestens 2000 € für die Begutachtung unabhängig davon, ob der Artikel akzeptiert werden wird oder nicht. Zu Recht gab es einen Sturm in den sozialen Medien, auf den ich hier nicht weiter eingehen möchte. Hier nur ein Ausschnitt:

A charge of €9,500, US$11,390 or £8,290 to make a single paper open access (OA) in Nature journals is so far beyond outrageous, I don't have a word for it.
… FTR, a life-altering summer research internship for an undergrad costs about US$5,000! https://t.co/H3h5WSoOz2

— Dr. Asmeret Asefaw Berhe (she/her) (@aaberhe) November 24, 2020

Zurück auf Start

Mein eingereichter Artikel wird nicht in Nature erscheinen. Meine Kollaborationspartner und ich backen kleinere Brötchen. Und er hat auch nur randständig etwas mit COVID19-Forschung zu tun, COVID war nur der Aufhänger. Aber irgendwie habe ich doch Grund zur Hoffnung, dass die Arbeit vielen Kolleginnen und Kollegen dabei helfen kann, Medikamente zu entwickeln. Und sei es nur ein kleines bisschen.

Also raus damit und bitteschön frei zugänglich! Die Welt wartet!

Doch halt – der Artikel ist wie so viele in dieser Zeit zustande gekommen, weil wir drauflos gearbeitet haben. Nicht alle Projekte sind von langer Hand geplant und beantragt. Und manchmal ergibt sich eine Publikation, die gar nicht vorgesehen war. Andernfalls hätten wir womöglich Unterstützung für Publikationskosten bei Beantragung geltend machen können. Denn das geht manchmal (Beispiel). Wo war ich? Ach ja … spontane Projekte sind gar nicht mal so selten. Doch zum Glück gibt es ja Publikationskostenzuschüsse, die man in solchen Fällen beantragen kann. Mein Arbeitgeber gibt zum Beispiel gibt bis zu 2000 € und keinen Cent mehr. Die ganzen Ausnahmen bei denen es besser geht, die Fußnoten und Fußangeln des Antragsverfahrens möchte ich euch hier ersparen, nur so viel:

man kann solch einen Antrag nur einmal im Jahr stellen
jeder Cent über die 2000 € bewirkt, dass die ganzen Kosten selber getragen werden müssen (also aus der Institutskasse oder dem eigenen Portemonnaie).

Macht nichts, unsere Bibliothek rät zum Verhandeln, denn als WissenschaftlerIn hat man sonst keine Hobbies:

Viele Verlage wissen, dass die Förderung von Open Access-Artikel an eine Höchstgrenze gebunden ist. Sprechen Sie mit Ihrem Verlag über einen Preisnachlass, es kann sich lohnen!

An dieser Stelle wird euch klar, warum auch von Verfechtern des Open Access ein Artikel nicht unbedingt als Open Access-Artikel eingereicht wird: Aufwand und Kosten sind mitunter abschreckend. Dieser Artikel wird dennoch kein Universtätsbibliotheksbashing: Mittel sind schließlich nicht unbegrenzt und eine Uni-Bibliothek kann sich die Dukaten nicht aus den Büchern schnitzen. Außerdem sind mittlerweile die Verlage auf den Open Access-Zug gesprungen und wollen die Gewinne sprudeln sehen. Die Springer Nature-Gruppe, zu der beispielsweise auch die BioMed Central-Zeitschriften (BMC, hier im Blog bereits beschrieben) hat einen Milliardenumsatz und nicht unbedingt Qualität im Blick: Wo man Gebühren einnehmen kann, ist es nicht klug, weniger gute Artikel zurückzuweisen (meine Gretchenfrage bei BMC Bioinformatics – wie hältst du’s mit der Qualität? – wurde übrigens nie beantwortet). Erst wenn gemeinnützige Open Access-Verlage entstehen, die durch die öffentliche Hand gefördert werden, wäre das Dilemma, Open Access-Gebühren mit Abo-Gebühren zu balancieren, für die Bibliotheken aufzulösen. Heutzutage geht das nicht: Wo für Abos richtig viel Schotter bezahlt werden muss, können die Länder nicht auch noch (guten Gewissens) den (kommerziellen) Verlagen für Open Access beliebig viel Zucker in den Aktionärshintern blasen. Mittlerweile gibt es auch Vereinbarungen für das Open Access-Modell, bei denen Universitäten oder Universitätsverbünde durch ihre Mitgliedschaft das Recht für ihre Angestellten erwerben, Artikel unter dem Open Access-Modell ohne weitere Kosten einreichen zu können (Beispiel). Damit wird der Teufel (Abo-Gebühr) durch den Beelzebub (Vorauszahlung für Open Access) ausgetrieben …

Hier ist das Beispiel BioMed Central lehrreich: 2000 gegründet, wurden 2002 APCs (article processing charges, also Gebühren) eingeführt. Erst als die Universität Yale die Subventionen einstellte (2007), wurde die Gruppe ein Jahr später an die Springer-Gruppe veräußert. Ganz ohne Subventionen geht es scheinbar nicht. Aber wenn es schon ohne Subventionen nicht geht, warum dann Unternehmen subventionieren?

Hier nun würden sich Gedanken anschließen, welche das Tageslicht des Internets wohl nicht vertragen. So was wie “Stiftung öffentlichen Rechts”, “institutionelle Förderung” und “gemeinsam auf europäischer Ebene” kämen mir da in den Sinn – allein sie finden sich nicht auf den politischen Agenden dieser Zeit. Und so verdienen sich die Verlage weiter ein goldenes Näschen, ist weiter Review im Open Access-Modell nicht so rigoros, wie er sein könnte und bleiben wissenschaftliche Zeitschriftenartikel weiter unerschwinglich für alle, deren Universitäten sich die Abos nicht leisten können oder wollen.

Musik am Sonntag – Bach und Barocklaute

2021-11-28T08:23:31Z

Auf vielfachen Wunsch hier mal ein Stück auf der Barocklaute. Ein ziemlich neues Fundstück, mit einem sehr bekannten Stück. Nämlich der Suite in E-Moll BWV 1006a. Wikipedia weiß zu berichten, dass das Stück zunächst keine Angabe eines Instrumentes aufweist. Erst Tonumfang und Satz der Suite weisen auf die 13 oder 14 chörige Laute hin. Das mit den “Chören” hatte ich mal kurz erläutert: Damit bezeichnet man die gleich oder im Oktavabstand gestimmten einfachen oder Doppelsaiten einer Laute, die von den Instrumentalisten konzeptuell als eine Saite aufgefasst und i.d.R so gespielt werden. Bei der Barocklaute, die man im Beispiel sieht, sind bis auf die zwei oberen Chöre alle weiteren doppelchörig bis zu den Bordunsaiten, den frei schwingenden Saiten, die nicht gegriffen werden.

Genug der Theorie – viel Vergnügen:

MPI Onlinekurs zum Selbststudium

2021-11-17T11:34:03Z

Nun habe ich bereits zweimal einen Kurs zur Parallelprogrammierung angekündigt (hier und hier). Und wir, in Mainz, bereiten auch wieder einen solchen Kurs für das nächste Frühjahr vor. Hoffentlich wieder in Präsenz, denn solche großen Kurse machen Spaß und ermöglichen auch regen Austausch zwischen den Teilnehmern – manche Zusammenarbeit fand hier ihren Anfang.

Nun gibt es auch die Möglichkeit online in das Thema zu schnuppern. Wer C/C++ oder Fortran beherrscht und lernen möchte, wie man hochparallele, wissenschaftliche Programme entwickelt, ist eingeladen in den Onlinekurs vom Höchstleistungsrechenzentrum Stuttgart (HLRS), ASTRON (womit hier im Blog endlich mal die Brücke zur Astronomie geschlagen wird) und SURFsara hineinzuschnuppern. Gefördert wurde die Entwicklung von der europäischen Allianz für das Hochleistungsrechnen PRACE.

Solch ein Kurs richtet sich an WissenschaftlerInnen aus den Bereichen Physik und Ingeneurswissenschaften (kein Anspruch auf Vollständigkeit, vielleicht gibt es auch in anderen Diziplinen Interessenten!), die beispielsweise den Bedarf sehen, in ihren Projekten mit wirklich großen Matrizes schnell zu rechnen. Wichtig ist auch zu wissen, dass der Kurs, dessen Link gleich folgt, keineswegs alle Aspekte des parallelen Programmierens abdeckt, nicht mal alle Aspekte, die es bei MPI (Link auf Wikipedia) gibt. Sondern ausschließlich die einseitige Kommunikation mit MPI (im Wesentlichen Punkt 2 im verlinkten Wikipedia-Artikel). Der wirklich gute Wikipediaartikel zeigt auch gleich, wie MPI-Direktiven (also der Code) aussehen – ein Kurs aber vermittelt erst das Gefühl, wie man eine solche Schnittstelle gut verwenden kann und parallele Programme designt.

Hier geht es zur Kursseite. Aus Erfahrung weiß ich, dass ein Kurs nicht ausreichene ist, um wirklich gut zu werden. Vielleicht sehen wir uns ja im nächsten Jahr beim Kurs in Mainz (auch andere Einrichtungen bieten solche Kurse an, teils noch online geplant, teils in Präsenz)? In meinen Augen ist ein Präsenzkurs, bei dem man Fragen stellen kann und Hilfestellung bei Problemen erhält, Gold wert. Und so würde ich mich freuen, wenn einige von euch berichten würden – ich selber werde nicht die Zeit haben den Kurs mal auszuprobieren.

Debattenbeitrag zur Impfpflicht von MaiLab – sehenswert

2021-11-14T13:02:02Z

Liebe Mai Thi Nguyen-Kim, Du hast ja recht. Auch mir wird in der Zeit bis SARS-CoV-2 hierzulande endemisch wird, noch manches Mal der Kragen platzen und mir wird egal sein, dass wieder Schmähpost oder Bullshitfakten den Weg in meine Inbox finden. Und weil ich weiß, dass einige LeserInnen des Blogs auf keinen Fall ohne den Blog zu solchen Videos finden werden, teile ich das heutige MaiLab-Video:

Nicht nur stellt das Video nochmals einige Dinge zur Impfung klar, es fasst auch gut zusammen, welche Emotionen zum Thema #Impfverweigerer so hochkochen. Schon deshalb sehenswert. Vielleicht – Hoffnungen sollte man nicht zu hoch hängen – trägt das Video und das Teilen mit dazu bei, bei ein paar Wenigen ein Umdenken anzustoßen.

Die Nachtigall – Musik am Sonntag

2021-11-14T10:07:13Z

Musik gab es hier im Blog schon länger nicht mehr. Zeit wieder ein Fundstück zu zeigen – die Nachtigall (“La Rossignol”) habe ich vor vielen Jahren einmal live gehört und jetzt wurde es mir per Algorithmus zu gespült. Ein Duett zwischen zwei Renaissancelauten von sehr guten Lautenisten.

Wer hinschaut, sieht “vom Jane Pickering Lautenbuch”. Eine der Sammlungen von Lautenmusik, üblicherweise benannt nach den Eignern, die das Buch herausgaben oder bei denen man ein Buch fand. Das “Jane Pickering Lute Book” kann man sich hier anschauen (PDF zum Download). Ziemlich schwer zu lesen – ich hoffe unter praktizierenden Lautenisten kreist eine bessere Abschrift oder Kopie (was üblicherweise der Fall ist). Die Aufnahme jedenfalls ist gut, so gut, wie das mit dem komprimierten Audioformat möglich ist. Jetzt aber soll uns nichts länger abhalten. Einfach zuhören und genießen:

Weißt Du, Alkohol am Steuer ist gar nicht so schlimm …

2021-11-09T16:16:29Z

“Es ist wirklich lächerlich, dass man mit ein paar Vierteln intus nicht Autofahren darf. Worum kümmert sich eigentlich unser Staat? Es ist schließlich mein Leben und mein Auto und ich kann ja wohl selber einschätzen, ob ich noch gut genug fahren kann.

“Ja, ok. Es gibt zwar noch andere Leute auf der Straße. Aber, wer nicht schnell genug zur Seite springt, wenn ich ein klein wenig aus der Bahn komme, ja, der fordert wohl das Schicksal heraus. Wer so empfindlich ist, sollte auch nicht Rad fahren. So jemand kann auch ganz leicht mal in den Graben fahren. Wer sagt, dass das meine Schuld ist?

“Weißt Du, eigentlich finde ich die Auswirkungen von Alkohol im Verkehr gar nicht so schlimm. Höchstens 7.5% der tödlichen Unfälle kommen durch Alkohol im Verkehr. Ach komm, das ist ein geringerer Prozentsatz als der Merlot, den ich gerade hatte. Oh, ich glaub, ich nehme noch einen.

“Die meisten Toten im Verkehr gibt es also ohne, dass jemand Alkohol trank. Bei den meisten Opfern hat überhaupt niemand was getrunken! Also, eigentlich ist es gefährlicher ‘ne Cola zu trinken und dann zu fahren. Letztens habe ich sogar gelesen, dass Alkohol die Sicht verbessert!

“Was sagst Du? Oh, Du denkst, dass das ein schlechter Vergleich ist, weil nur ein kleiner Teil der Fahrer betrunken hinterm Steuer sitzt? Na ja, ist ja klar. Aber wer bezahlt eigentlich die VCD? Die behaupten sogar, dass Bahnfahren umweltfreundlich ist! Da hört ja wohl völlig der Spaß auf! Und solchen Leuten glaubst Du einfach?

“Übrigens, ich lese auch wissenschaftliche ‘Studien’. Letztens zum Beispiel, dass ich überhaupt nicht Teil einer Risikogruppe bin. Menschen in meinem Alter haben einfach weniger Unfälle! Ha, damit hast Du nicht gerechnet? Überhaupt trinke ich nur natürliche Produkte und die sind ziemlich gut für die Gesundheit, das ist ja wohl bewiesen. Bier kommt vom Hopfen, Wein von Trauben, Limoncello von Limonen. Ich halte mich gesund. Weißt Du eigentlich wie viel Chemie in Deiner Cola ist? Schau mal nach. Im Mittelalter tranken alle Bier, sogar Kinder! Und? Hat da jemand was von Un-fall-ri-si-ko gefaselt? Na also!

“Außerdem solltest Du mal an das Risiko denken, falls ich jetzt nicht nach Hause fahren. Wenn ich die Nacht hier verbringe, kann alles Mögliche schiefgehen: Die Kneipe kann abbrennen, ich kann die Treppe runterfallen – alles le-bens-ge-fähr-lich! Da kann man besser mit ein paar Bier oder ein paar Wein oder Schnaps im eigenen Auto sicher nach Hause fahren. Du musst Dich nicht durch die Systemmedien verrückt machen lassen, klar?

“Was is? Wieso rufst Du Dir jetzt ein Taxi?! Kannst doch mit mir mitfahren?

“Querdenker” und ihr Hassobjekt, die Maske – Anspruch und Wirklichkeit

2021-11-03T18:28:45Z

Eigentlich, ja eigentlich sollte dieser Artikel gar nicht mehr das Licht des Internets erblicken. Da nun aber medizinische Masken und ihre Pendants noch für einige Zeit unsere Begleiter im Alltag sein werden, die radikalisierte Querdenker weiterhin dagegen Sturm laufen und das auch in bei Entscheidungsträgern politische Wirkung zeitigt, wird er also doch noch veröffentlicht.

Von selbsternannten Aufklärern und Querdenkern ist Desinformation zu erwarten. Wir wollen schauen, wie diese zusammengebastelt wird. Vielleicht kann was draus lernen und beim nächsten Mal tappen vielleicht wieder etwas weniger Leute in die Fallen der Querdenker. Und als Beispiel soll hier dienen, was die wissenschaftlich unparteiischen “Ärzte für Aufklärung” zum Thema Masken zu sagen haben. Denn “unparteiisch” und “wissenschaftlich” finde ich wichtig und die aufklärerischen Ärzte schreiben auf ihrer Seite:

Wir sind eine interdisziplinäre Arbeitsgemeinschaft von Ärzten und Wissenschaftlern, die der Öffentlichkeit ihre fachliche und evidenzbasierende Expertise im Zusammenhang mit der COVID-19-Pandemie zur Verfügung stellt.

Herrlich! Wo sonst bekommt man evidenzbasierte Expertise in den Zeiten der Pandemie? Kaum irgendwo, außer vielleicht bei “diesem Drosten” (Bhakdische Betonung) in Wechsel mit Frau Ciesek, den Sciencecops und vielen, vielen anderen allgemein zugänglichen Kanälen, dem RKI und natürlich den wissenschaftlichen Fachzeitschriften.

Letztere werden gerne bemüht, wenn man etwas zeigen will, was so ungefähr dem entspricht, was der gute Querdenker so zu denken meint. Das Faltblatt aufklärerischen Ärzte gegen die Masken haben vielleicht einige gesehen. Dankenswerterweise gibt es da gleich eine ganze Webseite, die die Information aktuell zusammenfasst (sicherheitshalber auch via webarchive). Inzwischen auch mit mehr “Studien” als im Faltblatt – man bleibt aktuell. Doch wollen wir uns die Sache näher anschauen:

Zunächst fällt auf, dass bei diesen Evidenzjüngern nur Material zusammengetragen wird, welches gegen Maskenwirksamkeit zu sprechen scheint. Evidenzbasierte Medizin strebt zwar eigentlich danach, alle Informationen zu einem Thema zusammenzutragen und zu gewichten, um dann einen fundierten Rat formulieren zu können. Aber das hat sich vielleicht noch nicht herumgesprochen …

Als Nächstes fällt auf, dass es sich gar nicht allein um Studien handelt, sondern auch Meta-Arbeiten aufgeführt werden, die ihrerseits einige der aufgelisteten “Studien” zitieren. So kann man natürlich den Eindruck unterstreichen, dass es viel Material gibt, dass gegen die Wirksamkeit der Masken bei der Prävention zur Ansteckung mit dem SARS-CoV-2-Virus gäbe. Statisikaffinen LeserInnen wird jetzt aufgefallen sein, dass ich nicht von “Metaanalysen” schreibe. Bei einer Metaanalyse werden nämlich eigentlich Effektgrößen aus anderen Studien zusammengetragen und gemeinsam analysiert. Bei den von den äufklärerischen Ärzten verlinkten Meta-Arbeiten fehlt diese statistische Analyse zumindest teilweise (auch weil es in den Primärquellen kaum gute Statistik gibt) oder ist eher durch wenige herbeigezogene Arbeiten gekennzeichnet. Ein bisschen was ist schon dabei, wie eine aktuelle Metaanalyse. Was die aufklärerische Ärzteseite jedoch groß zeigt, ist keine Metaanalyse. Sondern eine beschreibende Metaarbeit.

Außerdem sind einige Arbeiten aus dem Krankenhausalltag darunter, allesamt vom Tenor “seht her, in diesem Kontext helfen Masken gar nicht!”. Methodisch sind diese Arbeiten unzureichend (unzureichende methodische Beschreibung, Weglassen von Statistik, etc.). Weiter geht es mit einem Buch (also ebenfalls einer summarischen Arbeit) der bekannten Frau Kappstein: Dort wird eine BFARM-Publikation zitiert, die zu Mund-Nasen-Bedeckungen aus Stoff anmerkt, dass diese keinen verlässlichen Schutz bieten, je nach Maske keinen Fremdschutz bieten und Masken mit Ventil erst recht keinen Fremdschutz bieten. Mit anderen Worten: Was nicht 100%ig den Vorstellungen der Querdenker vom Narrativ der Maskenbefürworter entspricht, wird zum Argument gegen den Mund- und Nasenschutz. Und so schämt man sich bei den aufklärerischen Ärzten auch nicht, eine Meinungsumfrage, die ihrerseits ihre Argumentation durch Zitaten der Hessisch-Niedersächsischen-Allgemeinen Zeitung stützt, als “Studie” zu präsentieren. Diese Umfrage folgert auf Basis mauer Fragebögen, dass die psychischen Auswirkungen des Maskentragens individuell und gesellschaftlich desaströs sind. So ein Blogartikel ist zu kurz, um jede zitierte Studie im Detail auseinanderzunehmen. Schaut euch das Material selber an. Insbesondere die Umfrage hat durchaus humoristischen Wert.

Vor allem stechen in der Liste der aufklärerischen Ärzte die tendenziösen Bewertungen hervor. Hier, als Beispiel, das Kommentar für die oben zitierte Metastudie (Hervorhebungen, wie auf der Seite):

Diese Studie wurde von der WHO selbst finanziert. Es wurden 172 Beobachtungsstudien und 44 vergleichende Studien analysiert. Es wird zusammenfassend postuliert, dass ein Mindestabstand von 1 m und das Tragen von Masken mit einem erhöhten Schutz assoziiert sind. Dies wäre gültig für chirurgische Einwegmasken und 12-16-lagige Baumwollmasken. Es wird darauf hingewiesen, dass keine Intervention, auch wenn sie richtig eingesetzt wurde, mit einem vollständigen Schutz vor Infektion verbunden war.

So jedenfalls wird keine evidenzbasierte und unabhängige Darstellung des Standes der “Maskenforschung” erreicht. Diese Seite ist nichts weiter als eine selektive Auswahl mit tendenziöser Darstellung großteils ungenügender Arbeiten. Wenn andere folgern, dass Abstandhalten und medizische Masken Schutz bieten, heben die aufklärerischen Ärzte hervor, dass es sich nicht um “vollständischen Schutz” handelt. Dem sei allerdings nicht widersprochen.

Den Vogel …

… schießt jedoch der “Wissenschaftler” Herr Walach ab. Er hat letztens eine “Studie” in “JAMA Pediatrics” publiziert, einer renommierten wissenschaftlichen Zeitschrift mit kinderheilkundlicher Thematik. Das war nebenan bei “Gesundheitscheck” bereits Thema und mittlerweile ist die “Studie” zurückgezogen. Viele WissenschaftlerInnen haben Kommentare neben dem Artikel hinterlassen, ich habe mich nach Publikation darauf beschränkt, die Zeitschrift per EMail auf Formalia hinzuweisen mit der impliziten Bitte, die Kommentare der KollegInnen auch wirklich zu lesen und die Publikationsentscheidung zu überprüfen. Eine Antwort gab es nicht, aber normalerweise werden durch den Review gerutschte Veröffentlichungen auch nicht derart schnell zurückgezogen – man hat als Editor ja schließlich ein Gesicht zu verlieren. Insofern freue ich einfach, wenn ich mein Scherflein zum Zurückziehen einer Arbeit beigetragen habe, bei der ich als Wissenschaftler nicht mal mehr Fremdscham verspüre.

Denn der Artikel war nicht einfach tendenziös, sondern eine bewusste Irreführung und diente der Verunsicherung aller Eltern. Finanziert wurde er von Verein der “Mediziner und Wissenschaftler für Gesundheit, Freiheit und Demokratie”, der mit pseudo-Expertise um Einfluss wirbt, gerne Informationen entstellt, wenn es zum eigenen Narrativ passt, wo Vertreter auch mal Nazirhetorik verwenden oder Ärzten mit anderer Meinung drohen. Mit Leuten, die sich zusammen mit anderen Größen der Szene politisch engagieren und die als Verein viel Geld für ~~Propaganda~~ Informationsmaterial ausgeben – laut eigenen Angaben den Großteil der im Jahr 2020 eingenommenen 400.000 Euro an Spenden.

Dieser Verein nun hat die Studie Herrn Walachs finanziert. An der gibt es, wie gesagt, wirklich einiges auszusetzen, ihr könnt gerne die Kommentare neben der Publikation lesen. Vor allem gibt es keine Vergleichsgruppe und keine gute Messung, denn gemessen wurde die mittlere CO₂-Konzentration hinter den Masken von Kindern mit Sensoren, die keine gute zeitliche Auflösung haben. Klar geht die Konzentration im Vergleich zur Umgebungsluft herauf – wie auch bei jedem 08/15-Schnorchel – denn wenn ausgeatmet wird, bleibt der letzte Rest hinter der Maske hängen. Die Luft hinter der Maske wird schließlich beim erneuten Atmen eingeatmet. Folglich atmen Maskenträger mehr CO₂ ein als Nicht-Maskenträger. Skandal!

Nur ist das Volumen zwischen Maske und Mund klein. Es wird viel mehr Frischluft als “verbrauchte” Luft eingeatmet. Und unsere Bronchien enthalten immer auch mit CO₂ angereicherte Luft – das Volumen, dass durch eine Maske hinzukommt ist klein. Das wird in der “Studie” Herrn Walachs nicht diskutiert und weil die Auflösung der Sensoren so schlecht ist, ist es nicht unmittelbar zu sehen. Vergleichsgruppen gibt es auch nicht. Aber der Schaden ist bereits angerichtet: Als Blogger, der sich ab und an gegen “Corona”-Scharlatane gestellt hat, wurde ich häufig auf “diese Studie” angesprochen, denn sie “belege” ja die Gefährlichkeit der Masken für Kinder – meine Inbox erzählt eine ganz eigene Geschichte. Inzwischen hat der Hype nachgelassen, wie so häufig interessiert eine Klarstellung niemand mehr – und doch hat sich die Erzählung der Schädlichkeit von Masken für Kinder in den Köpfen von Entscheidungsträgern festgesetzt.

Fazit

Um es klar zu sagen: “Corona” hat viele Menschen rund um die Welt trauern lassen und wird auch weiter gefährlich bleiben. Masken schützen. Und wenn wir in diesem Winter wieder an vielen Orten Masken tragen müssen, dann auch, weil Umgeimpfte zu oft Scharlatanen (die auch ein Medikamentenportfolio gegen Covid19 aufführen, das überhaupt nicht zwischen therapeutisch wirksamen Medikamenten und Medikamenten von Trump-Jüngern unterscheidet) auf den Leim gegangen sind.

An der Stelle sei nicht verschwiegen: Manche Maßnahme zum Schutz gegen das Coronavirus war eine Farce! Dazu zählen auch Orte, an denen die Maskenpflicht gilt oder galt (z. B. im Freien mit viel Abstand und Wind oder in engen Räumen mit wenig Lüftung, wo auch die beste Maske kein Infektionsrisiko dauerhaft senken kann). Man sollte sich jedoch nicht kirre machen lassen, denn wir haben jetzt hoffentlich gelernt: Morgellonen sind ebenso Unfug wie manch andere Erzählung aus Querdenkerkreisen zum Thema Masken.

in eigener Sache Nr. 2: Stelle für BioinformatikerIn (m/w/d)

2021-10-25T19:02:37Z

Der erste Versuch war nur halb erfolgreich: Von zwei Stellen wurde eine besetzt. Es geht immer noch um die Anwenderunterstützung in der Biologie für angewandte Bioinformatik. Alles von der Workflowentwicklung bis zum Datenmanagement. Auch nicht genomorientierte Aspekte werden eine Rolle spielen.

Hier geht es zur Ausschreibung. Wie beim letzten Mal: Solltet ihr jemanden kennen, den dies interessieren könnte – bitte weitersagen!

Im Gegensatz zum letzten Mal verzichten wir auf Berufserfahrung und es ist möglich, die Stelle als Teilzeitstelle aufzuteilen. Garantieren können wir jedoch weiterhin eine sehr abwechslungsreiche Stelle im Kontakt mit den Core Facilities der Fachbereiche Biologie und Medizin. Spannend ist die Stelle in jedem Fall!

(Die Kommentarspalte im Blog habe ich für diesen Beitrag ausgestellt, weil an dieser Stelle keine weitere Auskunft zu den Stellen gegeben werden kann.)

Coronaschirme helfen nur mäßig – warum gibt es sie noch?

2021-10-23T17:25:08Z

Coronaregeln welken dahin, Kuschelverbote vergehen, aber die Acrylglasschirme vor den Kassen, die bleiben bestehen. Während unsere Welt eine langsame Normalisierung erfährt, wehren sich die Plexiglashüstelabschirmungen widerborstig gegen ihre Abschaffung.

“So ein Schirm passt nicht zum Umgang mit meinen Kunden”, sagt ein Geschäftsinhaber, während er den Schirm entfernte. Doch in zahllosen Supermärkten, Geschäften und hinter Tresen sind sie geblieben. Warum eigentlich?

Grund zum Zweifel

Befremdlich aber wahr: Die Wirksamkeit der Abschirmungen ist bestenfalls zweifelhaft. Das erfahren wir zumindest, wenn wir uns ein wenig in der Literatur vergraben. Ok, diese Abschirmungen halten gut Hust- und Niestropfen ab, wie aus Experimenten deutlich wird. Man hat dabei – kaum zu glauben – menschliche Köpfe nachgeahmt und lies diese verschiedene kleine Tröpfchen gegen einen Schirm sprühen. (Fast schon Ignobel-Preis-verdächtig.) Doch auch so hielt solch ein transparenter Schirm nicht alles ab: Von den kleineren Hustentröpfen konnten ungefähr 30 % den Weg um das Plastik herum finden.

Wichtiger noch ist, dass die Abschirmungen die Angelegenheit noch verschlimmern können. Das zumindest erfahren wir aus einer japanischen Fallbeschreibung. In einem Büro hatte man den Raum voll mit Plastikabschirmungen gehangen, um die Arbeitnehmer zu schützen. Hat funktioniert, bis ein Kollege “Corona” mit ins Büro brachte. Prompt erkrankten 11 Menschen. Schlicht, weil die Abschirmungen dafür sorgten, dass die Luft nicht mehr zirkulieren konnte. Keine gute Werbung für die Abschirmungen.

Unabsichtliche Nebenwirkungen

Schlimmstenfalls können Abschirmungen ganz unerwartete Nebenwirkungen zeitigen. Schon sieben Jahre vor der Pandemie untersuchten KollegInnen aus dem Vereinigten Königreich, was Abschottungen zwischen Krankenhausbetten bewirken. Sie haben einfach mit einer Rauchmaschine zwischen die Betten gepustet. (Ebenfalls ziemlich originell, wie ich finde.)

Ihre Schlussfolgerung: So ein “Schott” hält zwar einigermaßen etwaige Keime vom Nachbarbett fern, sorgt aber dadurch für eine Erhöhung infektiösen Materials im Gang. So etwas muss auch in dem japanischen Büro passiert sein, wo alle mit Corona infizierten Kollegen auf derselben Seite des Schirmes saßen.

Und doch können wir eine enorme Beliebtheit für Abschirmungen an den Kassen feststellen! Zu meinem Erstaunen kann ich das Gebot für Trennwände aus den Coronabekämpfungmaßnahmen meines Bundeslandes nicht ableiten, wohl aber leitet die Berufsgenossenschaft Handel und Warenlogistik als Beispiel für andere, ähnliche Dokumente ab, dass wo das Abstandsgebot nicht eingehalten werden kann, die Abschirmungen dem Schutz des Personals dienen können. Vielleicht ließ man sich auch von WHO-Empfehlungen leiten, die Glas- oder Plexiglaswände(!) zum Schutz vor Infektionen von klinischem Personal empfiehl.

Die Einführung von Hust- und Spukschutz an den Kassen wurde wohl auch ohne Gegenwehr eingeführt: Wer je hinter einer Kasse saß, weiß wie unangenehm es ist, wenn ein sich ein schwer erkälteter Kunde über das Band beugt.

Rundgang

Der tiefere Grund für den Fortbestand der Plastikvorhänge liegt möglicherweise in – absolut nicht repräsentativen – Antworten. Eine Apothekerin erzählt, dass ein Plastikschirm sehr angenehm ist, schließlich kamen auch schon vor der Pandemie ansteckende Menschen.

Ein Einzelhändler findet es schön, dass die Kunden jetzt nicht mehr über seinen Schalter hängen und mit auf seinen Schirm linsen. Und wer weiß? Vielleicht halten die Abschirmungen nur bis zu dem Tag, an dem beschlossen wird, sie abzuhängen und die großen Supermarktketten sie abbauen.

Und doch wird es mich nicht überraschen, wenn sie uns erhalten bleiben, die Abschirmungen. Vor allen in den kleineren Geschäften und der einen oder anderen Apotheke. Nicht so sehr wegen “Corona”, sondern um die Kunden auf Abstand zu halten.

Bioinformatik: Pipelines vs. Workflows: Workflowsysteme

2021-10-08T12:25:24Z

Endlich geht es in der der kleinen Serie (1. Teil, 2. Teil) zu schauen, was zu wirklich nachhaltiger Data Science und damit auch Bioinformatik gehört – und warum das so ist. Zunächst aber: Was haben wir vor Augen haben, wenn wir wissenschaftliche Nachhaltigkeit so richtig weit fassen? Wir können Ziele einer idealen Datenanalyse und alles was mir versuchsweise transparent zu dokumentieren und so zusammenfassen:

Quelle für diese Abbildung: Mölder F, Jablonski KP, Letcher B et al. Sustainable data analysis with Snakemake. F1000Research 2021, 10:33 (doi: 10.12688/f1000research.29032.1; Lizenz: CC-BY-4.0)

Macht man sich all diese Ziele zu eigen, erreicht man sehr viel: Wir (WissenschaftlerInnen) wollen zunächst einmal Karriere und brauchen dazu Veröffentlichungen. Die meisten – sind wir mal ehrlich – interessiert im Alltag wenig Anderes als eine zügige Veröffentlichung. Dazu wird eine Software benötigt? Na, Hauptsache sie läuft irgendwie. Aber etwas idealistischer sind wir guten WissenschaftlerInnen schon und wünschen uns daher:

automatisierte Arbeitsabläufe (niemand möchte mit neuem Input jedes Mal manuelle Änderungen im Code anbringen oder viele, viele Male Eingaben per Hand bestimmen),
einen Arbeitsauflauf bzw. der Code dahinter, der skalierbar ist (es soll egal sein, ob ein oder mehrere Inputs gegeben sind; 100 MB oder mehrere Terrabyte)
portierbare Arbeitsabläufe (wenn er publiziert ist, sollen Anwender einen Arbeitsablauf auf ihrer Plattform abbilden können, egal ob Workstation oder Supercomputer – natürlich kann man nicht erwarten, dass ein Desktop-PC viele hundert Terrabyte bearbeitet, aber abgesehen davon …),
lesbares Lösungen, denn wer kann schon seinen eigenen komplexen Code nach 3 Monaten lesen, wenn man nicht sorgfältig ist
alle Schritte der Datenanalyse sollen nachvollziehbar sein (was passiert wenn sich ein Fehler eingeschlichen hat? Ist dann alles so klar, das klar erkannt wird, wo der Fehler geschah?)
gut dokumentiert ist (schließlich ist die Computerei egal: Wir wollen ja wissenschaftliche Ergebnisse publizieren und nichts, absolut nichts hält dabei so sehr auf, wie ein Durcheinander im (elektronischen) Laborbuch! – außerdem kann irgendwann jemand mal nachfragen, wenn Zweifel an den Ergebnissen keimen – auch da hilft eine gute Dokumentation)

Ein Schritt zurück

In den letzten beiden Artikeln habe ich Pipelines beschrieben, bzw. das was in der Bioinformatik darunter verstanden wird und wodurch Probleme entstehen können. Implizit ist sind derartige Pipelines Verschwendung von Steuermitteln, weil selbstverständlich unnötiges scaling up geschieht (m.a.W. es werden viel mehr Computer gekauft als notwendig, weil man sich wenige Gedanken machen will und niemand so genau hinschaut, wie viele Mittel es bis zu einer Publikation braucht). Zu zeitgemäßer Datenanalytik gehören aber noch ein paar zusätzliche Kriterien, wenngleich ich der Auffassung bin, dass im einundzwanzigsten Jahrhundert bei der Anschaffung von Servern und sonstiger Hardware ein wenig auf Kosten und Energieverbrauch geachtet werden sollte.

Doch der Unterschied Pipelines vs. Workflows ist im Grunde noch immer nicht definiert, weil ja jede Pipeline einen Workflow (in der bioinformatischen Datenanalyse) darstellt. Doch die gerade skizzierten Ziele lassen sich mit ein paar Eigenbauscripten nicht erreichen. Also unternehme ich einen Definitionsversuch: Jeder Datenanalyseworkflow kann als gerichteter, azyklischer Graph dargestellt werden, bei dem jeder Knoten für einen Arbeitsschritt steht. Die Kanten stellen die Verbindung dar, dies ist die Ausgabe von einem Arbeitsschritt und Eingabe für den nächsten, i.d.R. als ordinäre Datei über das Dateisystem.

An dieser Stelle bekommen wir es mit Workflowsystemen zu tun, Programmen, die uns Workflows erstellen lassen. Sie arbeiten datenzentrisch und konstruieren ihren Arbeitsgraphen durch Kenntnis der Eingaben und gewünschten Ausgaben. Durch das Wissen, welche Ausgabe eines vorangegangen Arbeitsschrittes vorliegt, kann das Workflowsystem den nächsten Arbeitschritt anwerfen und damit eine riesige Durchsatzverbesserung erreichen: Wo beispielsweise viele Schritte eines Präprozessierungsschrittes auf sich warten lassen, einige aber fertig sind, kann – freie Ressourcen vorausgesetzt – der Folgeschritt für die fertigen Ausgaben der Präprozessierung erfolgen.

An dieser Stelle ist ein Beispiel gefordert, damit wir uns das besser vorstellen können. Nehmen wir an, wir wären Linguisten und möchten schauen, ob bei einer gewissen Zahl von Büchern das Zipfsche Gesetz gilt. Wir müssen also die Worthäufigkeiten in diesen Büchern zählen, plotten, eine statistische Analyse machen und am Ende – wir sind ja gute Wissenschaftler(!) – auch Zusammenfassen für eine Archivierung unserer Ergebnisse:

Beispiel, das ich im HPC-Einführungskurs verwende, um in kurzer Zeit (Laufzeit weniger als 2 min) zu demonstrieren, was automatisierte Ausführung bedeutet. Hier werden alle Worthäufigkieten in der Erzählung “My first Summer in the Sierra” von John Muir (hier mit der Datei / file: “sierra”), der Erzählung der Antarktisexpedition von Scott (hier: “last”), von “A Journey to the Western Islands of Scotland” von Keith (hier: “isles”) und in “The people of the Abyss” von Jack London ermittelt. Auf allen Zählungen wird eine Statistik berechnet und auf alle Zählungen werden individuell geplottet (ein Histogramm). Am Ende wird ein Archiv erstellt. Die “all”-Box dient dem Workflow-System zu erkennen was das Ziel ist und ist speziell für das verwendete System. Keine Sorge: Das Zipfsche-Gesetz findet Bestätigung und “the” ist in allen Büchern das häufigste Wort. Was man hier sieht ist ein gerichteter Graph, der im Text angesprochen wurde. Die einzelnen Boxen repräsentieren aufgerufene Skripte und die Bezeichungen darin sind etwas willkürlich, enthalten aber hoffentlich für sich sprechende Namen.
Das Beispiel ist dem Carpentries Incubator entnommen und steht unter CC-BY-4.0 Lizenz.

Klar, so ein einfacher Workflow reicht nur zur Demo. Noch ist der Vorteil nicht recht einsehbar: Was man mit unter zweihundert Zeilen Script erreichen kann, zeigt den Vorteil eines Workflow nicht. Es geht aber auch ein gutes Stück komplexer. So wie eigentlich immer, wenn um wirkliche Analytik geht. Gute Workflowmanager ermöglich auch ein Reporting mit allem Drum und Dran, wenn der Workflow abgeschlossen ist: Zuvorderst natürlich die Auswertung der Ergebnisse, aber auch eine Statistik zum Workflow selber (wie lange hat was gedauert, welche Programme in welcher Version wurden verwendet, etc.) und wer clever ist lässt sich gleich Abbildungen erstellen, die in eine Veröffentlichung kommen. Die folgende Abbildung habe ich der Beispielseite meines favorisierten Workflowmanager entnommen. Für alle, die neugierig auf die Wissenschaft hinter einem Workflow sind, lohnt es sich da herum zu browsen. Hier und heute geht es ja nur ums Prinzip – ja, sogar nur um die Oberfläche des Prinzips.

Ein komplexerer Workflow (zur Bestimmung und Klassifizierung von tumorbezogenen Neoepitopen in der personalisierten Medizin). Hier stellen werden die einzelnen Knoten nicht mehrfach aufgezählt (was oben noch pro Input der Fall war), denn dann würde der Graph wahrhaft unübersichtlich. Der Graph zeigt deutlich: Diesen Ablauf per Skript für diese Analyse zu schreiben wäre extrem aufwendig. Das für die nächste Analyse zu wiederholen wäre der erste Schritt ins Burnout.

Derartige Workflowsysteme (bwz. korrekter: wissenschaftliche Workflow Management Systeme) gibt es viele. Nur wenige davon sind weit verbreitet und nicht nicht auf einzelne wissenschaftliche Sektoren eingeschränkt. Es gibt immer wieder mal Versuche zu den etablierten Systemen aufzuschließen – meist ohne Erfolg (Beispiel). Die bekanntesten etablierten Systeme sind Galaxy^{[Afgan et al., 2008]}, KNIME^{[Berthold et al., 2009]}, Nextflow^{[Tommaso et al., 2017]} und snakemake^{[Köster et al., 2012; Köster and Rahman, 2012; Mölder et al., 2021]}. Die ersten beiden erlauben eine quasi-graphische Programmierung der Abläufe, während Nextflow und snakmake durchaus erfordern selber den Workflow zu scripten (wenn man neu entwickelt) oder zumindest bei neuen Daten eine Konfiguration zu ändern (jedes Mal). Die Wahl kann eine Frage der Vorliebe sein. Mir zum Beispiel gefällt die mangelnde Nutzertrennung in Galaxy nicht und als “Support Scientist” für einen Hochleistungsrechner wäre der Aufwand zu groß. KNIME zu nutzen ist prinzipiell kostenlos, als Service anzubieten kann aber ins Geld gehen.

In einer idealen Welt kann Workflows von einem Management-System in das andere überführen. Bis wir diese erreicht haben, können wir zumindest verschiedene Managementsysteme systematisch vergleichen, bzw. Vergleiche anschauen, die andere für uns gemacht haben. Workflows zu verwenden ist nicht bloß ein Hype, sondern eine begründete Mode: Wo jeder Mensch seine Scripte für ein x-beliebiges System schreibt, liegen Portierbarkeit, Reproduzierbarkeit und Verlässlichkeit in weiter Ferne. Dennoch wird es lange dauern bis selbst gestrickte Pipelines und die Publikation derselben aus der Welt der Datenanalytik und insbesondere der Bioinformatik verschwinden werden und welches der Workflowsysteme sich letztlich wirklich durchsetzt, wird sich zeigen. Letztlich kann es eine längere Phase der Koexistenz geben, doch wo nicht jedes System unterstützt werden kann ist es mit der Portierbarkeit bestimmter Workflows Essig.

Erst gestern wurde mir die Frage gestellt, was es denn braucht, damit Studierende der “Angewandten Bioinformatik” (das mag an anderen Hochschulen unter unterschiedlichen Namen gehandelt werden) am Ende des Studiums denn wirklich bioinformatische Auswertungen machen zu können ohne wie der Ochs vorm Berg zu stehen und bei der beliebten Code-Hilfeplattform stackoverflow Antworten zu kopieren, die sie nicht verstehen. Neben Scriptsprachen (bash, Perl, Python) sind das die Kenntnis eines Workflowsytems und ein Verständnis des Rechners (HPC-System, AWS-Cloud (für die reichen Unis aus Übersee), oder der arbeitsgruppeneigene Server (der womöglich häufig reicht, aber garantiert nicht immer)). In diesem Sinne:

Il computer non è una machina intelligente che auita le persona stupide, anzi, è una macchina stupida che funziona solo nelle mani delle persone intelligente.

Umberto Eco (1932-2016), Schriftsteller, Philosoph und Semiotiker

Der Computer ist keine intelligente Maschine, die dummen Menschen hilft. Im Gegenteil, er ist eine dumme Maschine, die nur in den Händen intelligenter Menschen funktioniert.

Bioinformatik: Pipelines vs. Workflows: Pipelines (2)

2021-11-03T18:12:18Z

Pipeline oder nicht Pipeline?

Im ersten Teil ging es darum zu charakterisieren was eine Pipeline in der Bioinformatik ist. Hoffentlich wurde klar, dass die Weise wie manche Datenanlyse Pipeline umgesetzt wird, extrem verschwenderisch sein kann. Wer erst einmal soweit ist zu erkennen, dass eine gegebene Pipeline heterogene Ressourcenanforderungen hat und das dies ernsthafte Performanceprobleme birgt, wenn es gilt größere Datenmengen zu verarbeiten, hat schon viel gelernt. Als Nächstes können wir fragen: Soll es überhaupt eine Pipeline mit diesen Vorzeichen sein? Eine mehr oder weniger lineare Abfolge von Programmen, mit heterogenen Resourcenanforderungen? Oftmals fehlt sogar ein gutes Command-Line Interface (CLI), so dass für neue Datensätze der Code im Hauptskript verändert werden muss, aber selbst wenn eine Pipeline nicht so schlimm ist: Kann man wirklich antizipieren, dass diese Pipeline überall (wo die einzelnen Programme der Pipeline installiert sind) zur Zufriedenheit läuft? Wieviel Enttäuschung hat “works on my system“-Code schon erzeugt?

Meine Hoffnung: Wer hier mit liest und eine — statische — Pipeline schreibt, weiß nun um einige der möglichen Probleme⁺.

Nun gut, behaupten kann man viel. Zunächst sollt ihr wissen, dass solche grausigen Pipelines tatsächlich publiziert werden. Also liste ich mal was ich finde, wenn ich in pubmed “pipeline” suche. Ein paar zufällige Treffer:

“The Open Targets Post-GWAS analysis pipeline“; den Code findet man hier; Installation geht über eine virtuelle Machine ansonsten nicht konform mit irgendeinem Standardwerkzeug; immerhin: Es gibt releases und der Code wurde in letzter Zeit gepflegt.
“Data Analysis Pipeline for RNA-seq Experiments: From Differential Expression to Cryptic Splicing.“; Code findet man in der Veröffentlichung(!); Installationshinweise gibt es über die Hinweise zu ein einzelnen Komponenten; man sollte bitte auch RStudio installieren, also interaktiv arbeiten. Interaktivität bei den letzten Schritten der Analyse (z. B. Auswahl von Graphiken) ist unabdingbar – aber für eine ganze Pipeline ist es ein Performancekiller.
“SINCERA: A Pipeline for Single-Cell RNA-Seq Profiling Analysis.“; Code findet man hier; letzer Update im Code: 3 Jahre zurück; Installation über R, es gibt keine releases.
“RACS: rapid analysis of ChIP–Seq data for contig based genomes.”; nur eine Beschreibung, es gibt keinen Code: NutzerInnen müssen Komponenten selber zusammenfügen.
“Bicycle: a bioinformatics pipeline to analyze bisulfite sequencing data.“; Code gibt es über die Gruppenwebseite; Wartungsstatus und Pflege ist somit nicht nachvollziehbar; im Wesentlichen ein Java-Wrapper; kann man über eine Ubuntu-Live-CD installieren …
“PRAP: Pan Resistome analysis pipeline”; Code gibt es hier; ein grausamer Stil (system call ohne Warten auf Feedback oder Fehlerbehandlung, selbstgemachtes CLI, etc. etc.); gerade erst veröffentlicht, sind die letzten Änderungen auch schon Monate zurück; es gibt keine releases und keine standardisierte Installtionsroutine. Hatte ich ja schon besprochen.

Dies ist eine willkürliche und kleine Auswahl (und es gibt auch noch die verrückte Idee Pipelines in Programme zu stecken, das klang im Blog hier schon mal an). Sie unterstreicht dennoch einmal mehr eine Problematik in der Bioinformatik: Es fehlt an Kohärenz und Qualität bei der Entwicklung. Viele Arbeitsgruppen machen, was ihnen in den Sinn kommt bzgl. Installation, Softwareumgebung, Skalierbarkeit, Performance, etc.. Und Wartung? Die ist Glücksache. Ach, darüber schrieb ich schon …

Pipelines, im Sinn der Bioinformatik, sind hier eine (weitgehend lineare) Abfolge von Programmen mit (meist) heterogenen Ressourcenansprüchen, die in jedem Schritt die Daten für den Folgeschritt ausgeben (mit Ausnahme des letzten Schrittes). “Interaktive Pipelines” betrachte ich hier nicht weiter, wenngleich Leute auf die Idee kommen so etwas zu schreiben, ja sogar, sie auf einem HPC-System oder in der Cloud laufen lassen zu wollen. Eine wirklich schlechte Idee, weil weder praktikabel noch für große Datenmengen überhaupt geeignet: Wer möchte bei wirklich vielen Läufen einer Software manuell redundante Eingaben tätigen? Na also!

Nun, aus dem ersten Beitrag zu dieser Miniserie erinnert ihr euch an folgendes Bild:

Schematische Ressourcenverwendung einer Datenanalysepipeline. Ressourcen können hier alles sein: CPUs, RAM, …; deutlich wird, dass die verschiedenen Schritte die Ressourcen sehr unterschiedlich nutzen können. Eigene Abbildung, Lizenz CC BY 4.0.

Das ist nicht so gut. Eigentlich müsste es so aussehen, denn nur so stechen die ungenutzten Ressourcen ins Auge:

Das “wahre” Bild: ein großer Teil der Ressourcen eines Computers bleibt ungenutzt. Eigene Abbildung, Lizenz CC BY 4.0.

Wie Abhilfe schaffen? – Naiver Ansatz 1

Neue NutzerInnen eines Clusters kommen manchmal auf die Idee: “Ich habe viel mehr Daten, als ich auf meinem Server verarbeiten kann: Lasse ich meine Pipeline (z. B. ein Script) also 1:1 auf einem Cluster (oder auf mehreren Servern mit einem gemeinsamen Dateisystem) laufen. Die Rechenknoten des Clusters sind schließlich “Serveräquivalente”. Visualisiert kann man sich das so vorstellen:

Erster möglicher Ansatz aus mehreren Rechnern die notwendige Performance herauszuholen um unsere hypothetische Pipeline große Datenmengen verarbeiten zu lassen. Hier ist nur die Ressource “Zahl der CPUs” (bzw. Kerne) berücksichtigt und die ist willkürlich auf ein Maximum von 10 gesetzt – moderne Rechner haben selten genau 10 Kerne, meist sind es mehr. RAM und File-I/O bleiben unberücksichtigt. Eigene Abbildung, Lizenz CC BY 4.0.

Warum ist der Ansatz “naiv”?

viele Ressourcen bleiben im Mittel ungenutzt. Wie viel genau kann man kaum allgemein sagen, aber eine untere Grenze können wir schätzen: Wenn die Laufzeit einer Pipeline alleine ist, die apparente Effizienz und die Zahl der zu analysierenden Datensätze ist die Verschwendung mindestens .
Nun deutet die Bezeichnung schon an, dass die Laufzeit bei großen Probenzahlen nicht nur nicht annähernd konstant ist, sondern vielmehr bei vielen gleichzeitigen Läufen explodieren kann. Die Ursache liegt darin, dass die besonders ressourcenhungrigen Schritte auch viel File-I/O machen und bei Alignment-Schritten (kurz: Der Abgleich biologischer Sequenzen mit einer großen Referenz) häufig auch random-I/O provoziert wird: Das Filesystem sieht viele Zugriffe auf Referenzdateien von verschiedenen Programmen. Da diese alle einen unterschiedlichen Zustand haben, greifen sie auf physikalisch unterschiedliche Stellen der Dateien zu (das ist sehr verkürzt – FilesystemexpertInnen mögen bitte darüber hinweglesen). Das mögen parallele Filesysteme nicht sehr und als Folge warten die Programme mehr auf Input als sie wirklich rechnen. So etwas kann man vermeiden, z. B. indem die Referenzen für ein Alignment auf ein Filesystem kopiert werden, das mit derartigem Zugriff umgehen kann (i.d.R. ein temporäres Filesystem wie eine Ramdisk oder eine superschnelle SSD).
Abgerechnet wird auf einem Cluster nicht die genutzte Ressource, sondern die reservierte. Und weil alle Nutzergruppen um Rechenzeit konkurrieren, vermindert sich der Durchsatz, weil schließlich alle NutzerInnen fair behandelt sein wollen: Wer 40 % der Zeit verschwendet benötigt entsprechend mehr und muss für weitere Rechnungen länger warten. Das ist nicht schlimm bei wenigen Starts der Pipeline, aber bei 10.000 oder mehr …

Und wie sieht so ein Ansatz im Script für ein Cluster aus?

# dies ist an Bash angelehnter Pseudocode, der über 
# einen bestimmten Input iteriert
for sample in ${samples[@]}; do
    submit-command pipline.sh $sample
done

So einfach, das können Anfänger erwiesenermaßen schnell verstehen. Die Batchsystemkommandos können sich selbstredend von System zu System unterscheiden, hier steht nur pseudocode-artiger Shell-Code (und die Existenz von Variablen und Kommandos setzten wir an der Stelle voraus – sie sind nur Platzhalter für das, was Nutzer wirklich wollen).

Ansatz Nr. 2

Wenn nun Studierende bei mir im Kurs aufschlagen, dann haben sie möglicherweise etwas gelernt, sie schreiben ein Masterscript, das in der Lage ist die verschiedenen Analyseschritte in Abhängigkeit voneinander auf den Cluster abzusetzen / zu “submittieren”:

# wieder Pseudocode, der mehr mit "sprechenden Befehlen" 
# versucht zu arbeiten als mit wirklichen Kommandos.

# Der Backslash (\) markiert einen Zeilenumbruch.
# Es könnte dort auch eine lange Zeile stehen, die
# aber auf der Blogplattform ggf. unleserlich wird.
 
for sample in ${samples[@]}; do 
    jobid_1=$(submit-command step1.sh $sample) 
    jobid_2=$(submit-command --dependency=jobid_1 \
              step2.sh $output_from_step1) 
    jobid_2=$(submit-command --dependency=jobid_2 \
              step3.sh $output_from_step2) 
    ... 
done

Und die step-Schritte sind natürlich auch bereits geschrieben und stehen für die Analyseschritte der Pipeline, die die AnwenderInnen durchführen möchten. In der Realität sehen solche Scripte komplizierter aus: Im besten Fall extrahieren sie die Jobid aus dem Rückgabestring des “submit”-Kommandos,

# hier: korrekter Code in bash für das Batchsystem SLURM
job_id2=$(sbatch --dependency=afterany:${job_id1##* } \
          step2.script $output_from_step1)

sorgen für Übergabe der Dateinamen

# hier: korrekter Code, der die Variablen "input" 
# und "output_path" als gegeben annimmt
job_id2=$(sbatch --dependency=afterany:${job_id1##* } \
          step2.script -i ${output_from_step1} \
          -o {output_path})

, die korrekte Parameterisierung der einzelnen Schritte

# hier: korrekter Code, der ein paar Variablen \
# zur Parameterisierung aufweist 
job_id2=$(sbatch -p ${partition} -A ${account} \
          --mem=${memory} -c ${number_of_cpus} -t ${time} 
          --dependency=afterany:${job_id1##* } \
          step2.script -i ${output_from_step1} -o {output_path})

und im Idealfall auch für Fehlerbehandlung, etc..

Ihr seht: Das kann beliebig komplex werden (und überfordert offenbar das Syntax-Highlighting an dieser Stelle ). Insbesondere die einzelnen Schritte für die Pipeline können (das ist nicht zwingend so!) Skripte von mehreren hundert Zeilen sein. Schön und wartbar geht anders. Die meisten NutzerInnen überfordert derartiges Skripting völlig.

Doch wie kann man nun die Ressourcennutzung schematisch darstellen?

Schematisierte Aufteilung einer Pipeline auf einem Supercomputer (HPC-Cluster) oder in einer Cloudumgebung. Die Zeit ist nicht proportional zu den vorherigen Schemata dargestellt. Eigene Abbildung, Lizenz CC BY 4.0.

Ansatz Nr. 2 nun ist weniger naiv als Ansatz 1 und wird doch selten gewählt. Gut ist der Ansatz ohnehin nur, wenn auch die Skripte step1.sh bis stepx.sh gut sind. Und “gut” bedeutet u. U. für einen Analyseschritt auch ein Skript zur Anpassung einer Software für das jeweilige Cluster zu verfassen.

Aber – hier werden doch auch Ressourcen nicht genutzt, oder? Was ist mit den nicht ausgefüllten blauen Kästen (=Teilrechner) in der Abbildung? In einer Zeit wo der CO₂-Fußabdruck von Rechenzentren in der Kritik steht, sind das sehr berechtigte Fragen. Auf einem Cluster allerdings mag es zwar Pausen zwischen diesen Schritten geben (die auch nicht eingezeichnet sind), doch die von unserer Pipeline ungenutzte Resource kann von anderen wissenschaftlichen Rechnungen genutzt werden⁺⁺.

Wie ist es um die Reproduzierbarkeit bestellt?

In beiden Ansätzen: Nicht gut. Aufmerksamen LeserInnen ist längst aufgefallen, dass wenn eine solche Datenanalysepipeline für ein bestimmtes System geschrieben wurde, es mit der Portierbarkeit auf ein anderes System nicht weit her ist. Und damit ist die Frage nach der Reproduzierbarkeit auch schon geklärt: Sie ist nicht gegeben. Ja, noch nicht einmal die Anwendbarkeit ist sichergestellt. Denn was auf einem anderen als dem Entwicklungssystem nicht genutzt werden kann, ist für Kollegen-WissenschaftlerIn eben nicht zu reproduzieren oder anzuwenden ohne allfällige Änderungen im Code mit allen möglichen Fehlern, die das nach sich ziehen kann.

Wenn nicht eine Pipeline, was dann? Reproduzierbare Workflows zur wissenschaftlichen Datenanalyse in Bioinformatik und anderswo sind gefragt. Wenn der Aufwand zur Anpassung von Einzelprogrammen (die nicht für ein Cluster gedacht waren), hoch ist, bieten Workflowsysteme eine Alternative? Davon mehr im nächsten Artikel, dem Abschluß der Serie.

´´´´´´´´

Veröffentlicht bekommt man alles. In der (Bio)-Informatik wird nicht selten proof-of-concept-Arbeit veröffentlicht, ohne je die Idee gehabt zu haben diese auch zu warten und Fehler zu beheben. Insofern ist klar, dass das Wissen um Schwächen einer Software (Pipeline oder Programm) viele Leute nicht davon abhält das genau so zu implementieren und zu veröffentlichen.
++ Dies ist ein Grund warum ich es ziemlich kritisch sehe, wenn wissenschaftliche Gruppen größere “Privathardware” anschaffen, statt die föderal bereitgestellten Mittel gemeinschaftlich zu nutzen.

Bioinformatik: Pipelines vs. Workflows: Pipelines (1)

2021-11-03T18:10:58Z

Was eine Pipeline ist, weiß jeder …

In der Bioinformatik ist mit einer Pipeline die Folge von Programmen gemeint, die eine bestimmte Analyse mit mehreren Schritten ermöglichen. Hierbei kann die Pipeline, ganz analog einer “echten” auch verzweigt sein. Sprich: Pipelines entsprechen in Ihrer Abfolge von aufgerufenen Programmen stets gerichteten azyklischen Graphen — in der Regel stellen Pipelines in der Bioinformatik jedoch eine lineare Abfolge von Programm-Aufrufen dar, die Dateien lesen und für das Folgeprogramm eine Ausgabe schreiben. Und derartige Pipelines gibt es viele: wer nach ‘bioinformatics pipelines github’ mit einer Suchmaschine fragt, erhält verdammt viele (auch redundante) Ergebnisse und Omicstools (kommerziell, aber man kann ohne Kosten suchen), hat einige hundert registriert.

Klarstellung: In dieser Mini-Serie (3 Folgen), die in kurzer Folge erscheinen wird, wird stark übertreiben, ja aufgebauscht: Pipeline vs. Workflow? Das ist in der Bioinformatik nicht (gut) definiert. Die Übertreibung dient der Klärung. Pipeline, darum geht es in den ersten zwei Teilen ist ein leicht(fertig) verwendeter Begriff in der Bioinformatik, den man erst mal eingrenzen muss. Workflowsysteme gehen die Problematik der Datenanalyse in mehreren Schritten datenzentrisch an — dazu in dieser Miniserie bald mehr.

Ein wenig Hintergrund

Die Idee der Pipe(line) kennen vielleicht manche von Euch von Unix/Linux, wo auf der Shell derartige Kommandos möglich sind:

$ wc -l "$fname" | cut -d ' ' -f1

Dieses Beispiel fragt ab, wie viele Zeilen es für eine Datei die mit der Variable ‘$fname‘ bezeichet wird gibt. Statt einer Ausgabe auf einem Terminal landet das Ergebnis der Pipe (das Symbol für die Pipe in der Shell ist ‘|‘ und das für den Prompt, also die “Eingabeauforderung” das ‘$‘) und wird an das Programm ‘cut‘ gereicht. ‘cut‘ scheidet danach das erste Feld ( ‘-f1) aus und bestimmt seine Felder mit dem Leerzeichen (delimiter ist im Englischen das Trennzeichen, daher der Parameter ‘-d ' '‘. Das ist eine Möglichkeit nur den Zahlenwert zu erhalten, denn sonst enthält die Ausgabe auch noch den Dateinamen.

Der Vorteil einer “Pipe“: Wir schreiben keine neue Datei „auf Platte“, wie hier:

# mit '>' lenken wir eine Ausgabe in eine Datei um
$ wc -l "$fname" > temporary_file.dat
# mit '<' lesen wir die Datei wieder ein
$ cut -f1 -d ' ' < temporary_file.dat

Stattdessen werden die Daten in die „Pipe“ gesteckt, wo sie vom nächsten Programm als Input verwendet werden können. (Unter Unix/Linux ist alles eine Datei, aber das ist mir für diesen Artikel egal. Hier soll eine Datei einfach mal naiv eine gewöhnliche Datei sein, die auf der “Festplatte”, gleich welcher Technologie, geschrieben werden kann.)

Insgesamt ist diese Unix-Pipe(line), die es so natürlich auch auf den vielen Linuxsystemen gibt, sehr mächtig. Sie tummelt sich heute folglich in der Administration von Servern eigentlich überall. Ich versuche das regelmäßig in Bash–Einführungskursen an die Studierenden zu bringen. Und ich versuche auch darzulegen, wo die Grenzen sind, bzw. wo man sinnvollerweise keine Pipeline einsetzt:

$ cmd1 | cmd2 | cmd3

Wenn wir diese drei Programmaufrufe ‘cmd1’, ‘cmd2’ und ‘cmd3’ betrachten, dann gibt es offenbar eine Ausgabe von ‘cmd1’, die ‘cmd2’ zur Weiterverarbeitung gegeben wird und dieses reicht die Stafette weiter an ‘cmd3’. Wenn die gesamte Pipeline insgesamt nur kurz läuft oder alle drei Werkzeuge mit etwa derselben Geschwindigkeit arbeiten, ist das ein sehr mächtiges Werkzeug. Geht es jedoch um viele Daten und beispielsweise ‘cmd2’ viel langsamer als die anderen beiden, so entsteht ein geschwindigkeitsbestimmender Flaschenhals. Im Extremfall ist einige Geduld gefordert. Auf den Teufel, der immer wieder das Detail ausmacht, will ich hier nicht weiter eingehen.

In der “Unix-Welt” haben die gezeigten Pipelines ihre Berechtigung, da die gängigen Kommandozeilentools nach dem Prinzip “Ein Werkzeug, eine Aufgabe” entworfen wurden – bzw. “do one thing and do it well“. So kann man der “Wartbarkeitshölle” entkommen, in die man kommt, wenn man versucht eierlegende Wollmilchsäue zu programmieren. Mal abgesehen davon, dass die Parametervielfalt solcher Wollmilchsäue auch eine erstaunliche Herausforderung für die AnwenderInnen sein kann …

Gibt es da ein Problem?

Wo ist jetzt der Zusammenhang zu Bioinformatik⁺? Bioinformatik-DatenanalystInnen haben das Konzept „Pipeline“ neu aufgegriffen (wer das Wort neu geprägt hat oder wann, weiß ich nicht → Infos gerne an mich). Hier heißt Pipeline nun: Programm 1 nimmt eine Eingabe, schreibt eine Ausgabe für Programm 2, was diese als Eingabe nimmt und wiederum eine Ausgabe schreibt, vielleicht für Programm 3, usw. — aber die Übergabe geht nicht wie in der Unix-Pipe, sondern als Dateien auf Festplatten (bzw. heutzutage immer häufiger SSDs). Hier wird die Pipeline zu etwas ausschließlich sequenziellen: Ein Schritt wird nach dem anderen ausgeführt.

Die meisten Pipelines gibt es in der genomorientierten Bioinformatik und die hat in den letzten Jahren einen enormen Wandel durchgemacht: Next Generation Sequencing (NGS) ist so “next” nicht mehr und inzwischen sind die Methoden sehr vielfältig. Sogar das Sequenzieren einzelner Zellen, also die Darstellung der Sequenz der DNA einzelner Zellen ist inzwischen möglich. So etwas oder große “Kohortenstudien”, also die genetische Charakterisierung mittels NGS von vielen Menschen zu Vergleichszwecken, generiert viele Daten: Rohdaten von mehreren hundert Terabyte sind keine Ausnahme mehr – und da sind sind nur die Sequenzdaten gemeint nicht die Bilddaten der Sequenzierer.

Wo gestern also noch Programme sinnvoll waren, die genau eine Sache gut machten, sind heute Programme gefordert, die möglichst “File In- oder Output” vermeiden, also nicht immer und immer wieder dieselben Daten lesen und wieder (leicht verändert) ausschreiben: Denn das macht eine Pipeline langsam, auch auf moderner Hardware. Ein wenig Fortschritt hat es gegeben, so waren zum Beispiel vor wenigen Jahren die “FastX”-Programme, die der Entfernung von Sequenzier-Artefakten (für die Fachleute: Das “Adaptertrimming”) und der Qualitätssicherung dienen, ziemlich en vogue – denn das sind Programme, die man gut zu Unix-Pipelines zusammenarbeiten lassen kann. Heute kommen diese Programme in meiner Arbeit als beratender Wissenschaftler nicht mehr vor, außer in der Lehre, wo man damit schön demonstrieren kann, was die einzelnen Schritte machen. Das ist gut so, denn große Datenmengen kann man so wegen des oben angesprochenen Flaschenhalsproblems nicht effizient verarbeiten.

Dennoch hat die Unix-Philosophie des einzelnen Werkzeugs, das seine und nur seine Arbeit gut macht, in der genomorientierten Bioinformatik seine Berechtigung: Da die Komponenten von Pipelines in Arbeitsflüssen (bei verschiedenen Fragen) verschieden kombiniert werden können und sollen, müssen sie eben Komponenten bleiben. Die eierlegenden Wollmilchsäue sind hier somit unerwünscht, weil schwer zu warten und am Ende doch nicht universell einzusetzen.

Und weiter?

Das Zusammenstellen von Pipelines ist eine kleine Kunst. Es gilt:

Nutzerfreundlich zu sein, also nicht ein Wirrwarr an Optionen zu bieten, die bei der geringsten Fehleinschätzung die wissenschaftlichen Aussagen (die man ja gewinnen will) schmälern.
Gut zu installieren sollte so eine Pipeline natürlich auch sein – zumindest ihre Komponenten.
Datei-I/O-Probleme sind zu vermeiden: Ein Tool, das für sich genommen gut und schnell läuft, kann – hundertfach gleichzeitig auf einem System laufend – auch leistungsfähige Dateisysteme ganz schön ins Schwitzen bringen (sofern Filesysteme schwitzen …).
Schließlich gibt noch die fach- und problemspezifischen Anforderungen.
Und zu guter Letzt: Portierbar sollte so eine publizierte Pipeline auch sein. Denn sonst ist nicht von Dritten anzuwenden und mithin nicht reproduzierbar.

Zu Punkt 1 kann man als Anwender nicht viel sagen. Hier wird über Download- und Zitierzahlen abgestimmt: Wenn die Pipelines nicht nutzerfreundlich sind, spricht sich das schnell herum. Überhaupt: Die meisten Pipelines werden nicht als solche publiziert, sondern irgendwie für den Hausgebrauch geschrieben. Punkt 2 ist den meisten Anwendern nicht so wichtig, man installiert einmal bzw. schreibt einmal und lässt die Pipeline dann laufen. Und wenn die Pipeline für den Hausgebrauch ist, bestimmt die Installation der Komponenten die “Installierbarkeit” der Pipeline. Punkt 3 ist etwas worüber ich hier sicher mal schreiben möchte, aber im Grunde gibt es auf einem kleinen Server(!) kaum Probleme, die auf Lesen und Schreiben von Dateien zurückzuführen sind, also spielt es für die meisten Entwickler keine Rolle. Punkt 4 ist für unsere Betrachtung irrelevant: Hier geht es mir ums Prinzip.

Bleibt Punkt 5. Doch warum sollte eine Pipeline portierbar sein? Portierbar heißt ja, man kann sie auf einem anderen System einsetzen. Wenn man aber für den Hausgebrauch geschrieben hat, entfällt die Anforderung, oder?

Nun, irgendwann stellen viele BioinformatikerInnen / AnalystInnen fest, dass die Datensätze etwas größer werden. (Womit das Terrain der Softwareplanung erreicht wird, aber wir biegen nicht dahin ab.) Also: Die Pipeline, die so gut auf einem System funktioniert, muss auf ein größeres System. Was tun?

Meine “Motivationsfolie” zum Hochleistungsrechnen — und auch zum Unterstreichen des Rechenbedarfs in der Genomik und anderswo. Bild: gemeinfrei, Idee zur Illustration: Lennart Martens, Lizenz CC BY 4.0.

Option 1: Mehr Rechenpower kaufen. Wenn Option 1 nicht geht (das Budget reicht nicht, die Datensätze sind zu groß, etc.), dann Option 2: In die “Cloud” ausweichen. Ist meist aus Kostengründen und manchmal aus Gründen des Datenschutzes (zumindest wenn es sich um menschl. Genomdaten handelt) nicht möglich (bzw. sollte nicht stattfinden, passiert natürlich dennoch). Und es gibt auch “Bioinformatik-Clouds” auf nationaler Ebene (z. B. de.NBI in Deutschland). Und Option 3 beschäftigt mich: Ausweichen auf den lokalen “Cluster”, als die Systeme zum Hochleistungsrechnen.

Und da schlägt dann ein anderes Problem auf; stellen wir uns einmal vor dies sei eine schematische Pipeline mit ihren Ressourcenanforderungen:

Illustration der schwankenden Ressourcenanforderung auf einem Rechner (z. B. ein 0815 Server oder “fetter” Gamingcomputer) im Zeitverlauf einer Datenanalysepipeline (in der Bioinformatik). Eigene Abbildung, Lizenz CC BY 4.0.

Wenn man das so auf einem Großrechner laufen lässt gibt es zwei grundsätzliche Probleme:

Läuft die Pipeline genau so als ein Script auf einem Teilrechner (auch Rechenknoten genannt, also ein Rechner mit vielen Kernen und Speicher) des Hochleistungsrechners, gibt es schnell eine Beschwerde des jeweiligen Adminteams: In meinem Beispielplot werden ja im Schnitt nur gut 40% der Resourcen genutzt, wenn das CPUs sind und die Pipeline lange läuft, dann ist das viel Verschwendung.
Wenn man diese Pipeline so für große Datensätze mehrfach zeitgleich laufen lässt bekommt man definitiv I/O-Probleme (z. B. wegen sog. Random-Access auf Referenzdatenbanken/-genome — das ist auf großen Clustern wesentlich problematischer als auf kleinen Servern. Viele Instanzen eines Programmes können, wenn sie zur selben Zeit laufen, auf ein und demselben Referenzdatensatz zufällig erscheinende Abfragen generieren, weil die eine Instanz hier etwas abfragt, die nächste dort und so weiter. So etwas mögen die meisten Filesysteme nicht. Es gibt Abhilfe, aber all der I/O-Kram soll uns hier nicht beschäftigen.).

Also: Eine solche Pipeline 1:1 auf ein anderes System gar einen Cluster zu übertragen ist manchmal schlicht nicht möglich oder zumindest eine schlechte Idee. Um eine Pipeline zu bauen, der guten Durchsatz garantiert, braucht es Lösungsstrategien, die auf ein Zerlegen der Pipeline hinauslaufen. Schließlich: Wenn der erste Schritt in meinem Schema so wenige Ressourcen benötigt und man gezwungen ist die Pipeline mehrfach zu verwenden: Warum nicht gleich Schritt 1 mehrfach zeitgleich laufen lassen? Oh, warte, da gibt es noch Schritt 2! Auf einem Cluster gibt es die Ressourcen dies mehrfach zeitgleich laufen zu lassen, doch auf dem Entwicklungsserver nicht … Müssen also zwei Versionen dieser Pipeline vorgehalten werden? Wie kann man diese entwickeln?

Ausblick

Weiter geht es mit Ansätzen bzw. Anforderungen, die es gibt, um aus einer Pipeline die notwendige Performance raus zu kitzeln, z. B. wenn man auf ein HPC-Cluster portiert bzw. auf irgendwelche anderen Rechner. Und schließlich mit der Einführung von Workflowsystemen zum Erstellen optimierter, reproduzierbarer und portierbarer Workflows zur bioinformatischen Datenanalyse.

Und hier geht es weiter zum nächsten Artikel (2 von 3) über Pipelines und Workflows.

´´´´´´´´´´´´´´´´´

DIE Bioinformatik gibt es nicht: Das Fach ist schon etwas älter und so gibt es nicht nur die genomorientierte Bioinformatik, sondern auch die Strukturbioinformatik, die proteombezogene, … schließlich all’ die möglichen Applikation in der Omics-Welt und die Kombinationen und Neuerungen in der Systembiologie. Über ein weiteres Beispiel habe ich letztens mal berichtet. Fazit: Wer allumfassende Kenntnisse für sich reklamiert ist ein Scharlatan.

Merkels wissenschaftspolitisches Erbe?

2021-09-27T15:09:18Z

Merkel leaves behind a powerful legacy for research and for evidence-based thinking. Over the years, her administration has strengthened and internationalized German science.

So heißt es im Nature Editorial vom 15. September 2021. Der Kommentar ist nicht ganz unkritisch, doch singt er insgesamt das hohe Lied zu Frau Merkel, die als Wissenschaftlerin einen besonderen Politikstil geprägt habe. So habe unter anderem der Frauenanteil unter den research leaders zugenommen und die Wissenschaft sei internationaler ausgerichtet worden.

Beides stimmt. Nur ist dies in meinen Augen dem Zeitgeist zuzurechnen und weniger der Politik: Frauen, die eine Position im akademischen Gefüge erreicht haben, haben dies aus eigener Anstrengung erreicht. Vielleicht waren Kita oder ein Förderprogramm hilfreich, die Härten zu überwinden – sicher ist das nicht, weil arbeitsortsnahe Kitaplätze ebenso wenig selbstverständlich sind, wie die Teilnahme an Förderprogrammen. Und Internationalisierung? Die wollten alle und wollen sie immer noch: Die Universitäten, die Max Planck-, Helmholtz-, Frauenhofer-Gesellschaften, … . Nicht zuletzt die Förderprogramme der EU und des Bundesministeriums für Bildung und Forschung (BMBF) haben dazu beigetragen.

Also doch?

Also hat die Forschungspolitik der Merkeljahre doch Wirkung gezeigt? Schließlich waren die letzten drei Wissenschaftsministerinnen in den Kabinetten von Frau Merkel von der CDU und hatten sicher Einfluss auf die Wissenschaftspolitik?

Nun, böse Zungen behaupten häufig, dass BMBF habe ein großes Buget, doch wenig Gestaltungsspielraum. Das stimmt nicht ganz. Wir erinnern und an die große Wissenschaftlerin Schavan, die der letzten SPD-Ministerin, auf dem Ministerposten für 8 Jahre nachfolgte. In Erinnerung hauptsächlich durch ihre Plagiatsaffäre und dem weichen Fall danach. Mir auch aufgefallen durch blumige Aussagen über Naturwissenschaften. Sie hat sich für Gleichberechtigung und Internationalisierung stark gemacht, aber in der Tat wenig erreichen können, was Länder und Universitäten nicht wollten.

Vor allem aber fiel in Ihre Ära der Erlass des Wissenschaftszeitvertragsgesetzes. Ein überfälliges Gesetzes, dass Kettenbefristungen im akademischen Sektor verhindern sollte. Der Wille war da, das Handwerk stimmte, doch Ideologie und Lobbygruppen haben lange gezerrt. Und so wird das Gesetz seine Schwächen auch nach ein paar Reförmchen nicht los. #ichbinhanna, was in die Ära von Schavans Nach-Nach-Folgerin fiel, belegte einmal mehr, dass das Problem nach wie vor besteht und die Bedingungen sich nicht verbessert haben.

Die Kritik an der Bundesregierung ginge jedoch im föderalen Wirrwarr fehl: Es sind die Länder, die Ihre Universitäten in der Berufspolitik und Ausgestaltung der Institute weitgehend gewähren lassen, wodurch “exzellent” berufen wird, aber für den Mittelbau (der immer mehr Lehre übernehmen soll) häufig die Stellen fehlen. Doch ob A- oder B-Land – eine flächendeckende Verbindung der Juniorprofessuren mit Tenuretrack, eine Ausrichtung der Studiengangskapazitäten am Bedarf in den Berufsfeldern oder andere Strukturreform, die den Namen verdienen fehlen nach wie vor.

Und Merkel?

Bundeskanzler interessieren sich i.d.R. überhaupt nicht für Forschung. Das war bei ihr als Wissenschaftlerin zweifelsohne anders. Auch das Naturekommentar kolportiert einmal mehr, dass sie sich ein ums andere Mal wissenschaftliche Expertise ins Kanzleramt holte. Haben wir als BürgerInnen etwas davon gemerkt?
Wurde daraus Politik? Vielleicht in puncto “Corona”. Und so war nicht Trump oder BoJo zu sein zwischenzeitlich ein hohes Gut. Dies macht jedoch keine Wissenschaftspolitik. Das Wissenschaftspolitik überhaupt auf der Agenda der letzten Jahre stand, konnten wir nicht merken. Strukturelle Reformen? Hier, wie in der Technologiepolitik (Stichwort: Digitalisierung), Klimapolitik, der Verkehrspolitik und bei anderen Feldern: Fehlanzeige.

Nein, außer dem zweifelhaften Erbe des Zeitvertragsgesetzes gibt es kein Erbe der Ära Merkel für die Wissenschaft. Oder seht ihr dies anders?

Bioinformatische online Tools – ein Ärgernis

2021-09-22T13:43:36Z

Wissenschaft ohne Internet ist kaum mehr denkbar – egal um welche Disziplin es geht. Dafür wurde es auch (u.a.) erfunden: Literaturdatenbanken, Sequenzdatenbanken, Genomdatenbanken, Ligandendatenbanken, sie alle nur Beispiele aus der Bio- bzw. Cheminformatik und sie sind selbstverständlich über einen Browser zugänglich. Gut gepflegte Datenbanken kennen und nutzen de facto alle BioinformatikerInnen, gleichgültig ob AnwenderIn oder EntwicklerIn.

Darüber hinaus gibt es aber auch Webanwendungen, Programme also, die nur über einen Browser zugänglich sind. Diese werden nicht selten von einzelnen Arbeitsgruppen irgendwo, irgendwie betrieben. Und da ist das Problem: Schließlich ist keine Arbeitsgruppe für die Ewigkeit gedacht. Eigentlich wollte ich euch hier eine ganze Reihe von Beispielen geben, aber meine unmittelbare Nachbarschaft hält bereits eine Webseite bereit mit diesem Bonmot:

Some of these servers are dying (nothing is eternal!).

Ja, klar! Wenigstens sagt es mal jemand ehrlich: Was heute noch läuft und eine shiny Webseite bietet, kann morgen schon nicht mehr verfügbar sein. Kein Problem angesichts öffentlichen Quellcodes? Einfach selber hosten? Na ja, erst mal muss sich jemand bereit erklären den verlassenen Kram anderer Leute zu hosten (was keinerlei Meriten bringt und folglich wissenschaftlich unattraktiv ist) und dann muss man den Quellcode auch haben – das ist nicht immer der Fall. Es muss auch eine Organisation geben, die für das Hosting einer Webseite Geld in die Hand nimmt. Eine Webseite kostet immer Geld. Ist es nur eine kleine virtuelle Maschine sind die Kosten vernachlässigbar. Ist dahinter eine größere Datenbank und wird die Webseite stark nachgefragt, können die Kosten durchaus gravierend sein.

Reproduzierbarkeit nur für “reiche” Institutionen?

Wie sehr die Dinge auf die Spitze getrieben werden können illustriert das Beispiel von RepBase sehr schön. Hierbei handelt es sich, nach eingenen Angaben um eine Datenbank repräsentativer repetetiver eukaryotischer Sequenzen. Man kann aber auch Software herunterladen, die natürlich nicht gepflegt ist oder diese dort laufen lassen. Repbase ist ein schönes Beispiel, denn es gab hierzu vor ein paar Jahren einen Kommentar in Nature. Wie heißt es dort so schön?

The whole system is rigged against infrastructure of any kind.

Sollte dann jedes Miniinstitut oder Arbeitsgruppe auf den Versuch setzen Infrastruktur in Form von Webapplikationen oder Webdatenbanken bereit zu stellen? Das ganze Portfolio – Datenbankdownload und Applikationen – ist bei RepBase nunmehr für ein “kleines Entgelt” zu haben, denn letztlich lief die Förderung aus. Wenn man sich durchklickt, landet man hier bei der Liste der subskribierenden Institute. Die Liste deutscher Institutionen ist übersichtlich:

das Max Planck Institut für Immunobiologie und Epigenetik
die Senckenberg Gesellschaft für Naturforschung und die
Universität Bielefeld

Forschende, die nicht dort forschen, aber auf die RepBase-Datenbank zugreifen oder dort eine Anwedung nutzen wollen, müssen entweder in die Tasche greifen (bzw. schlimmer noch das Geld über den üblichen bürokratischen Weg gezahlt sehen wollen) oder haben gelitten. Ach und für einige Anwendungen benötigt man die von RepBase gepflegte Datenbank – womit auch ein Nicht-Webtools betroffen sind. Aber das ist ein Spezialfall.

Die Liste der Sponsoren ist insgesamt eher übersichtlich und auf wenige westliche Länder beschränkt. Kurz: Für alle anderen sind Ergebnisse, die auf Nutzung von RepBase und ähnlichen Angeboten basieren schlicht nicht reproduzierbar, bzw. sie können diesen Service für ihre Forschung nicht nutzen. So sehr ich mit den Machern sympathisiere, weil sie ihre Finanzierung verloren haben und einen Weg gefunden haben weiterzumachen, so denke ich doch: Aus Sicht der “Institution Wissenschaft” sind Lehren zu ziehen. Die Kriterien ob eine Anwendung als Webtool veröffentlicht oder eine Datenbank auf diese Weise überhaupt veröffentlicht werden darf, sollte auch davon abhängen welche Institution dahintersteht beziehungsweise über welche Finanzmittel diese verfügt.

Das ewige Problem unbekannter Parameterisierung

Mit welchen Parametern ein Programm aufgerufen wird, wird in Veröffentlichungen selten genug erwähnt, dabei kann das den feinen Grad zwischen Reproduzierbarkeit oder der Vergeblichkeit jemals Ergebnisse reproduzieren zu können. Bei Webtools verschärft sich die Lage: Parameter sind entweder gar nicht erst einzugeben (Beispiel) oder sollten unmittelbar vom Anwender notiert werden – in irgendwelchen Logbucheinträgen kann man ja selber schlecht nachschauen.

Das verlinkte Beispiel hat obendrein noch ein weiteres Problem: In meiner Zeit als aufstrebender, naiver Jungwissenschaftler habe ich es zweimal angewendet^{[Müller et al., 2006; Meesters et al., 2009]}, bei der ersten Idee zu diesem Artikel war die Seite nicht erreichbar. Jetzt firmiert es nicht mehr unter “PipeAlign”, sondern unter “PipeAlign2”. Das zeigt zwar, dass diese eine Gruppe weiter an ihrem “Produkt” arbeitet und es pflegt, aber es illustriert auch ein recht häufiges Phänomen: Wissenschaftliche Webapplikationen geben in der Regel keine Auskunft über Version und Änderungshistorie (zur Bedeutung siehe auch mein vorheriger Artikel).

Es wird meist auch nur oberflächlich gereviewed: Wie eine Seite aufgebaut ist, ob sie Auskunft über die Einstellungen gibt, diese womöglich in einem Report für die Anwender dokumentiert oder welche Version einem Webwerkzeug zugrunde liegt – das wird nicht hinterfragt. Solche Pimperlitzchen finden nicht den Weg zur Checkliste der Reviewer.

Umöglichkeit der Einbettung in Workflows

Das wesentliche Problem hat mit Reproduzierbarkeit jedoch ehrlicherweise nichts zu tun, deshalb habe ich dieses Artikel nicht zum Teil der Serie zur Reproduzierbarkeitskrise gemacht. Viele Webtools stellen halt letztlich Arbeitsschritte dar, die man halt manuell ausführen muss. Sie sind nie dafür entworfen worden, dass jemand auf die Idee kommt wirklich viele Daten darauf zu schmeißen. Manuelle Ausführung ist zudem immer langsam im Vergleich mit automatisierter Ausführung. Man muss stets Daten “hochladen”, hoffe auf eine schnelle Ausführung auf einem unbekannten, wahrscheinlich untermotorisierten Server und abschließend Ergebnisse herunterladen.

Wie absurd das ist könnte das PipeAlign-Beispiel zeigen, wenn wir uns vorstellen im Zeitalter der Metagenomik in der abertausende Sequenzen miteinander verglichen werden. Doch schauen wir uns ein anders Beispiel an, wo es noch deutlicher wird: Stellen wir uns vor wir sind auf der Suche nach einem Wirkstoff, der einmal als Medikament wirken und helfen soll. Wir wollen im Computer bei der Suche anfangen, denn wir arbeiten in einer akademischen Institution und haben nicht die Millionen Euro, die es braucht um ein Screening (mit Roboterhilfe) mit Abermillionen von Substanzen zu probieren.

In den letzten Jahren interessante Entwicklungen, die auch im akademischen Bereich genutzt werden könn(t)en. Eigentlich sollten sie auch verwendet werden, denn sie sind vielversprechend. Doch sie können nicht verwendet werden, denn es handelt sich z. T. um Webapplikationen. Dort müsste man seine Substanzen “hochladen” und dann auf Beste hoffen. Designed für ein paar tausend Substanzen, wo unser Anspruch mitunter ist viele Millionen zu testen. Ein Ding der Unmöglichkeit. Vor allem, wenn das fragliche Werkzeug nicht mehr funktioniert (hier könnte eine sehr lange Liste von Links stehen).

Aber immer noch werden Webanwendungen publiziert. Ich bin angefangen, dass einschlägig zu kommentieren – wer sich auch immer engagieren mag beim öffentlichen Review ist herzlich dazu aufgefordert es gleichzutun (da kann ich auch noch besser und systematischer werden). Wenn man etwas Zeit investiert, fallen in der Regel ein paar Dinge auf, die man besser machen könnte. Wem gute Wissenschaft am Herzen liegt, kann mit solchen Kommentaren einen kleinen Beitrag leisten.

Gute Wissenschaft mit Webanwendungen …

… gibt es natürlich auch. Online fragen “Was habe ich eigentlich für eine Sequenz in der Hand?” ist im Zeitalter der Annotation ganzer Genome etwas weniger wichtig geworden. Aber immer noch sinnvoll und ein schneller Check, der viel Zeit spart. Vor allem ist das verlinkte NCBI eine Institution, die, ebenso wie sein europäischen Pendant, Infrastruktur aufbauen und unterhalten kann. Zumindest ist in beiden Fällen, alle immer mal wiederkehrenden Sparrunden zum Trotz, nicht damit zu rechnen, dass ihnen bald völlig die Puste ausgehen wird.

Vor allem auch Literaturrecherchen und andere Datenbanken, eingangs bereits erwähnt, sind in den Lebenswissenschaften ohne Webtools wie dieses kaum denkbar. Nein, Webtools haben ihre Berechtigung. Aber bitte nachdenken, bevor ihr etwas als Webanwendung publiziert. Ist es sinnvoll oder ohnehin bald wieder verschwunden?

Die Entwicklung von Scienceblogs (2)

2021-09-21T05:43:08Z

So einmal im Jahr, erlaube ich mir einen Blick zurück aufs Bloggeschehen und und die Entwicklung von Scienceblogs zu werfen. Im letzten Jahr habe ich ja bereits die Graphik der Blogposts pro Monat eingeführt. Die diesjährige Version der Graphik zeigt die Evaluation der Blogposts bis zum August 2021 und wieder für jeden Blog mit einer zufälligen Farbe zu Unterscheidung. Wie wir sehen: Viel hat sich nicht getan. Zwar wurden einige Blogs reaktiviert (Bei–spiel–e), doch leider nicht dauerhaft. Und so bleibt die Zahl der Veröffentlichungen auf einem mittel-niedrigem Niveau, verglichen mit den Topzeiten der Plattform.

Wissenschaftsblogs fristen zwar ein Nischendasein, doch sie können trotz der anderen Wissenschaftskommunikationsformate eine Berechtigung haben. Und sie können auch erfolgreich sein. Dazu sollte die jeweilige Plattform auch ansprechend und gepflegt sein. Und das “Drumherum” sollte abgestimmt sein. Schauen wir uns das mal an.

Die Seite

die WordPress-Version ist hier auf Scienceblogs ist 4 Jahre alt. Zwar gibt es noch Support für die installierte Version, aber mittlerweile auch einen neuen Editor in WordPress und der installierte Editor ist angezählt. Eine gewisse Trägheit beim Updaten macht sich zwar bezahlt: Man muss weniger Zeit (mithin Geld) hineinstecken, aber wenn man zu lange wartet sieht man das auch. Und wer zu lange wartet geht auch das Risiko ein, dass ein Update irgendwann aufwendig wird – die Publikationstätigkeit wird dann stocken. Ob Zuwarten sich also rechnet ist nicht sicher, zumal eine gute IT-Abteilung Updates routiniert durchführen kann (auch automatisiert).
das Banner “10 Jahre Scienceblogs” (in der Kopfzeile) führt seit einigen Jahren nicht mehr auf die Jubiläumsblogs, sondern wurde zu dem Logo von Scienceblogs.
nur wer Geld verdient kann auch investieren. Insofern sind die Werbeanzeigen ein notwendiges Übel. Ein Übel, dass interessierte Besucher einer Webseite nicht selten in Kauf nehmen – wenn die Werbung nicht zu sehr nervt. Dazu müsste sie einigermaßen auf das Zielpublikum zugeschnitten und nicht dem Erfahren der Webseite entgegengesetzt sein. So wie diese hier:
Als Erinnerung an all diejenigen, die einen Werbeblocker nutzen. Und als Beleg dafür, dass Werbung mitten im Absatz oder wie hier auf Meertext zwischen Zwischenüberschrift und Absatz platziert werden kann. Somit besteht die Gefahr jedes Layout zu verhauen und die Lesbarkeit einzuschränken. (Die Anzeige wurde bewusst entstellt, um nicht nachteilig für das werbetreibende Unternehmen zu wirken.)

Werbung also muss sein – jedenfalls bei einem Anbieter mit unternehmerischen Zielen – muss aber Werbung im Text sein oder wäre es effizienter und zugleich weniger übergriffig Werbung sparsamer einzusetzen?
Legitim ist auch – insbesondere für Angebote mit ähnlicher Zielgruppe wie die Blogplattform – Werbung für Formate des eigenen Hauses zu platzieren. So zum Beispiels für den “Damals” PodCast, für die online-Zeitschriften in der Kopfzeile oder für Scienceblogs als eMagazin. Letzteres wird allerdings seit zwei Jahren nicht fortgeführt und an den kommerzielle Erfolg von Auskopplungen frei zugänglicher, veralteter Inhalte mag man ohnehin kaum glauben. Doch das Banner “bereichert” die Seite weiterhin als Beispiel für unnötigen Ballast.
Cookiebanner – seit der Einführung der DSGVO werden wir damit erfreut und wissen so zumindest, was uns zuvor verheimlicht wurde. Oder? Scienceblogs jedenfalls zeigt bei näherem Hinsehen:
Wer sich durchklickt wird belohnt: Man kann über 100 Unternehmen sehen, denen zum Zweck der Datenverarbeitung man bei Scienceblogs.de zustimmen kann.

Die Vermutung, dass die immer selben Unternehmen eine Vertragsbeziehung zu allen möglichen Plattformbetreibern unterhalten ist natürlich Humbug: Ein Verlag wie die Konradin Mediengruppe GmbH muss gar nicht eine derartige Vielzahl von Verträgen abschliessen, um eine solch bombastische Vielzahl von Partner zu suggerieren. Es reicht völlig ein Standardbanner auszuwählen und die Implikationen zu ignorieren. Ich zweifele hiermit an, dass sich auf diese Weise wirklich hinreichend Umsatz generieren lässt, so dass die abschreckende Wirkung solcher Banner ausgeglichen werden kann. Weniger wäre mehr.

Und so kommen mir einige Verbesserungsvorschläge in den Sinn. Auch was Kategorisierung und längeren Verbleib von Artikeln, bei gleichzeitiger Steigerung der Übersichtlichkeit anbelangt, wäre Einiges möglich. Doch wir sollen zunächst darauf drängen, dass die niedrig hängenden Früchte gepflückt werden: Es gilt neu zum Blog geführte LeserInnen nicht durch abschreckende Cookiebanner (das geht schlichter!) und irritierende Werbung abzuschrecken. Andernfalls lassen sich die Basis der Leserschaft nicht erweitern und auch eine abschreckende Wirkung auf interessierte, potentielle Neu-BloggerInnen kann nicht ausgeschlossen werden.

Die “Community”

Apropos neue LeserInnen: Wie werden eigentlich eigentlich Leute auf die Inhalte hier auf Scienceblogs aufmerksam? Da gibt es die Suchmaschinen, Leute und diejenigen, die von Meta-Anbietern wie Ecosia oder Pocket hier her kommen. In der Regel ist dies ein stetiges Rinnsal, der durch Zufälle zum reissenden Strom werden kann, wie bei diesem Artikel, der an einem Tag 8000 Klicks auf sich zog – weit mehr als die allermeisten Beiträge in meinem Blog.

Nicht zuletzt gibt es Lesende, die durch die sozialen Medien, hauptsächlich Twitter hier zu Scienceblogs gelenkt werden. Welches Potential da schlummert mag folgendes Beispiel verdeutlichen: Ich bin spät mit Twitter angefangen und habe, auch weil ich wenig zwitschere, sage und schreibe 25 “Follower” zum Zeitpunkt des Schreibens dieses Artikels. Und dennoch finden über Twitter regelmäßig 1-2 Leute den Weg zu einem neuen Artikel. Da Tweets schnell alle Aufmerksamkeit verlieren, nicht jedes Thema für alle interessant sein dürfte und einige meiner “Follower” unabhängig vom Thema nicht dazu zu bewegen sein dürften überhaupt einen deutschsprachigen Artikel zu lesen, finde ich: Das ist eine gute Quote.

@ScienceBlogs_de hat ca. 10.000 “Follower” und zwitschert in unregelmäßiger Folge und eher selten. Offenbar gibt es weder automatische “Retweets”, die durch das Erscheinen eines Artikels getriggert werden, noch zusätzliche Inhalte oder Kommentare. Es ist kaum vorstellbar, dass diese Vielzahl durch die paar Tweets des letzten Jahres gewonnen wurden. Kurz gesagt, viel läuft da nicht (mehr?):

Tweets by ScienceBlogs_de

Nun wird nicht jeder Artikel eines bestimmten Blogs für alle 10.000 Follower von @ScienceBlogs_de interessant sein. Nicht alle, die einen Artikel interessant finden, finden die Zeit zum Lesen/klicken. Nicht alle, die lesen kommentieren auch. Aber eine bessere Pflege könnte, mein Beispiel zeigt es, durchaus mehr Interessierte auf Scienceblogs lenken. Das auf der Mikroblogplattform Twitter Aufmerksamkeit für Inhalte auf anderen Seiten erzeugt wird, ist nicht ungewöhnlich. Kommentare zum wissenschaftlichen Zeitgeschehen könnten, sparsam dosiert, ebenfalls “Follower” bei der Stange halten.

Mehr Lesenden wären vielleicht auch im Interesse der Diskussionskultur und damit der Plattform in Gänze. Wer sich gegen die “Ikonen des Querdenkertum” stellt, hat schnell die Kommentarspalte und die eigene Mailbox voller Beschimpfungen. Viele Diskussionen enthalten Whataboutism, ganz ähnlich wie hier illustriert:

Es gibt so viel zu tun. pic.twitter.com/oEwhK56vSj

— erzaehlmirnix (@erzaehlmirnix) June 4, 2021

Andere steigerten sich in Beschimpfungen von rechts oder links und es gab ziemliches Re-Framing/De-Railing. Dies führte dazu, dass manch Artikel im letzten Jahr von mir gar nicht erst veröffentlicht wurde: So macht es einfach keinen Spaß! Ich werde daher, auch wenn es weniger Klicks und Kommentare bedeutet, meine Vorsätze zur Diskussionshygiene konsequenter Umsetzen und finde: Das wäre keine Zensur im engen Sinne, denn weder muss ich mich beschimpfen lassen, noch gleich die Weltrevolution diskutieren, wenn es doch um was ganz Anderes geht. Kritik und konstruktive Diskussionen hoffe ich so zu fördern. Vielleicht können sich so die Stilleren auch mal melden – könnte ja interessant sein. Das es sie gibt, ist gewiss.

“Public Foss” ist nicht Alles – die öffentliche Verwaltung braucht Unterstützung für eine gute Digitalisierung

2021-09-03T16:02:22Z

Vor ein paar Wochen hatte das Linux-Magazin ein paar Artikel unter dem Überthema “Public FOSS” (FOSS = Free and Open Source Software). Software also, die der öffentlichen Hand als Alternative zu proprietären und teuren Produkten dienen kann. Und was soll ich sagen? Der Markt bietet so Einiges, was die Kämmerer erfreuen könnte:

kostenfreie Office-Software
kostenfreie Groupware (Email, Kalender, etc.)
sogar kostenfreie Accountverwaltungen
etc. etc.

Bedarf

Doch vielleicht ist, was viele schreiben, die Essenz: Vielleicht wollen wir als Bürger zuvorderst die einfachen Verwaltungsgänge digitalisiert wissen. (Und das schlägt sich ja auch im Gesetz bereits nieder.) Einfache, klar strukturierte Formulare obendrauf. Denn wer kennt sie nicht, die genervten MitarbeiterInnen des Amtes, die einen auf irgendwelche fehlerhaften Einträge in Formularen hinweisen. Digitalisierung, die bedeutet ein geduldig-freundlicher Computer würde Anträge annehmen und vor dem Absenden auf Fehlerchen hinweisen, würde auf beiden Seiten Nerven sparen und des teutschen Herz höher schlagen lassen, oder?

Es braucht aber mehr: Wer je erlebt hat, wie stark die Entscheidungen unserer Repräsentanten von ihrem Bauchgefühl abhängen, kommt nicht umhin von “evidenzbasierter Politik” zu träumen. Nur ist dieses Land davon weit entfernt. Erinnern wir uns noch an die letzten Wochen heißer Diskussion über Impfquoten, wo diese vielleicht höher lagen als gedacht. Während anderswo berichtet wurde, welche Berufgruppen besonders gefährdet sind, sich mit SARS-CoV-2 zu infizieren, blieb hierzulande nur die Spekulation über dieses Thema. Aber auch das Verknüpfen alltäglicher Daten ist unmöglich oder von unseren Verwaltungen nur mit großem Aufwand verbunden.

Dies verhindert kontrollierte politische Schritte, deren Effekte sich klar messen lassen. Politischer Spielraum der Länder und Kommunen ist stets auf Neue das Resultat kurzfristiger Verfügbarkeit immer knapper Mittel. Die Konsequenz dieses häufigen ad hoc-Handelns ist Investition in Maßnahmen und Infrastruktur ohne Kenntnis ihrer wahrscheinlich ökonomisch, ökologischen und sozialen Wirkungen im Vergleich zu etwaigen Alternativen.

Umsetzung

Nun umspannt der alltägliche Softwarebedarf der Kommunen, und die möchte vor allem im Blick haben, alles von Geoinformationssystemem bis zum Passwesen. Für viele Programme, aber längst nicht alle, gibt es freie Alternativen. Doch ein Blick auf große Städte wie München oder Dortmund mit ihren großen Open Source-Initiativen verstellt die Situation: Auch jede Verbandsgemeinde oder Kleinstadt muss eine IT-Abteilung bezahlen, egal ob als eigene Abteilung oder ob diese im Privatisierungswahn “outgesourced” wurde.

Diese Abteilungen sind häufig mit der Organisation des Alltäglichen beschäftigt (vom Einrichten der Mailkonten für neue Mitarbeiter bis zum Einspielen von Sicherheitsupdates) und personell nicht großzügig ausgestattet. Der Betrieb der bestehenden Infrastruktur lastet die Abteilungen ziemlich gut aus. Evaluation und Einführung neuer Software steht selten auf der Tagesordnung. Evaluation des Softwarebedarf wird wenn überhaupt von den Fachämtern, also IT-Laien ausgeführt (meistens wird nach Bekanntheitsgrad einer Software entschieden, falls überhaupt eine Wahl besteht). Austausch mit den KollegInnen in Nachbarkommunen ist rar.

Insofern ist die Idee einheitlicher IT-Systeme inklusive Datenbanken auch in nicht-sensitiven Bereichen eine kaum erfüllbare Herausforderung. Wir sind erstaunt über die kommunalen IT-Errungenschaften bei unseren Nachbarn in der EU, können aber Ähnliches nicht zu Stande bringen. Meist gibt es nicht einmal ein Ticketsystem: Mails an eine Verwaltung werden intern weitergeleitet – manchmal bis sich jemand erbarmt und antwortet. Wenn aber allein die Einführung eines solchen Systems, das in vielen öffentlichen Einrichtungen (vielleicht auch in manchen Kommunen) und Unternehmen zum Standard gehört, kleine Abteilungen überfordert, wie geht es dann?

Mehrere Fliegen mit einer Klappe könnten die Bundesländer mit zentraler Infrastruktur erschlagen: Zentrales Rechtemanagement für alle Angestellten der Kommunen des Landes (und die Kommunen können ihr Personal sinnvoller einsetzen), zentrale Ticketsysteme mit kommunenspezifischen Unterqueues (und die Kommunen werden wesentlich responsiver wahrgenommen und können auch intern effizienter werden), eine Groupware für Alle (spart ziemlich was an Lizenzgebühren, besonders wenn man von der Softwareschmiede aus Redmond Abstand nehmen würde, aber auch wenn nicht), Management für virt. Maschinen für alle möglichen Spezialapplikationen (und die Kommunen gewinnen Sicherheit bei sinkendem Personalbedarf) und schließlich Datenbanken für manigfaltige Anwendungsfelder. Letzteres ist eine Killerapplikation, ein Traum zwar, doch mit erheblichem Potential. Es erfordert Schreib- und Leserechte auf kommunaler Ebene und Leserechte landesweit, inkl. Anonymisierung. Mit diesem Schatz öffentlicher Daten ließe sich manches Baugefühl mit guter Statistik aus der Vielzahl der Projekte begegnen und wir Bürger hätten auch einen besseren Einblick auf die Entscheidungsgrundlagen.

Selbst wer nicht so weit gehen mag wird sehen, dass ein solches Unterfangen sehr aufwendig ist. Doch es ist nicht ohne Beispiel: Universitäten und Forschungseinrichtung gehen den Weg zentraler Infrastruktur schon lange. Es ist vielleicht vergessen, dass die Anfänge mancher Landesregierungs-IT auf Expertise und Hilfe der Uni-ITs angewiesen war. Auch heute könnte man in den Innenministerien von den Forschungsinstitutionen lernen, sogar wie man freie Software großskalig zum Einsatz bringt.

Hindernisse

Die größten Hürden auf dem Weg zu zentraler Infrastruktur sind gezeichnet durch das Fehlen von Phantasie:

Bei uns, der Bevölkerung, die der Politik nicht mehr zutraut bei sensiblen Daten anständigen Umgang zu garantieren.
Bei der Politik selber, die ein Geflecht von Kostenstellen über Zuständigkeitsgrenzen hinweg schuf, das heute zeitgemäße Digitalisierung und damit Innenpolitik zur unfreiwillig komischen Herkulesaufgabe macht und Hilfestellungen von Land zu Kommune oftmals verunmöglicht.
Und schließlich bei den Verwaltungen selber, die Budgets mit Macht verbinden.

Viele Gründe also, warum die Digitalisierung der Verwaltung auf sich warten lässt. Wir brauchen kreative Köpfe, die in der Lage sind die Hürden zu sehen und aus dem Weg zu räumen!

Wer hätte das gedacht? – Die Luca-App ist nutzlos

2021-09-02T19:39:37Z

Die Luca-App ist nicht nur teuer, übereilt eingekauft und mies geplant, sondern auch nutzlos. Das ist jetzt “amtlich“:

Damit die Luca-App überhaupt funktioniert wie versprochen, müssen die Anwender einwilligen, dass ihre Kontakthistorie freigegeben und an die Gesundheitsämter übermittelt wird. Das ist – oh Wunder – wohl nicht häufig der Fall und so kommen die Daten der App selten dazu Wirkung entfalten zu können.
Vor allem aber ist ein …

… weiteres Problem im Umgang mit der Luca-App sind zu viele Kontaktpersonen: Die Gesundheitsämter schildern, dass die Daten oftmals nutzlos sind, weil beispielsweise Restaurantbetreiber zu große Räume mit nur einem einzigen Check-in abdecken statt einzelne Tische. Oder Nutzer nicht wieder ausgecheckt werden.

Und Betreiben haben oftmals die Datei zur Entschlüsselung der Daten nicht mehr und können diese nicht zur Verfügung stellen.

Hätte uns nur jemand gewarnt! Ach wie gut, dass wir manche Politiker bald daran erinnern können, dass es ab und an gut ist Expertisen nicht in den Wind zu schlagen!

in eigener Sache: Stellen für Computational Scientist (Bioinformatik)

2021-09-02T18:42:05Z

Der Fachbereich Biologie der Universität Mainz schreibt zwei Stellen für die Bioinformatik aus. Es handelt sich hierbei um Stellen zur Unterstützung im Fachbereich, gewissermaßen die Keimzelle einer bioinformatischen Core Facility. Der Alltag wird sehr abwechslungsreich sein und darin bestehen technischen Support zu leisen, HPC-kompatible Workflows mit zu entwickeln und Vieles mehr. Vor allem gilt es Kontakt zur Nutzerbasis in den verschiedenen Arbeitsgruppen zu halten. All dies in Zusammenarbeit mit den Core Facilities des Fachbereiches Biologie und der Gruppe für Hochleistungsrechnen – und damit auch mit mir.

Hier geht es lang zur eigentlichen Ausschreibung. Wenn ihr jemand kennt, die/den es interessieren könnte: Bitte weitersagen.

(Die Kommentarleiste im Blog habe ich für diesen Beitrag ausgestellt, weil an dieser Stelle keine weitere Auskunft zu den Stellen gegeben werden kann.)

Update: Kleiner Tipp am Rande – wer nicht alles kann, aber ein Bisschen, kann mehr als jemand der nichts auf der Liste der Anforderungen erfüllt. Das gilt bei jeder Stellenbeschreibung, ist trivial, aber manchmal muss es dennoch dazu gesagt werden.

Wissenschaftskommunikation – wichtiger denn je und doch vernachlässigt

2021-08-29T17:57:20Z

Wissenschaftskommunikation – was soll, was kann sie leisten? Darüber wurde schon viel geschrieben, trocken und abstrakt oder humorvoll und weitsichtig. Klimakrise und Pandemie zeigen einmal mehr, dass sich Missverständnisse häufen und Aufklärung Not tut: Dies ist im Sinne der Wissenschaftstreibenden, denn sie mögen keine Anfeindungen und im Sinne der Gesellschaft, denn eine aufgeklärte Bürgerschaft ist in ihrer Kritik konstruktiver.

Die deutschen Wissenschaftsorganisationen erkannten dies schon früh und haben das PUSH-Memorandum (Public Understanding of Science and Humanities) von 1999 verfasst. Ziel war die Verunsicherung der Bevölkerung und falsche Hoffnungen zu bekämpfen, sowie die Rolle der Wissenschaft besser zu erklären. Das bereits damals geforderte Anreizsystem für Fachleute, die ihr Wissen mit der Öffentlichkeit teilen fehlt immer noch. Und so mündet auch die jüngste Initiative von Bildungsministerin Karlizcek (CDU) unter dem Label #FactoryWisskomm zum “Austausch zwischen Wissenschaft und Gesellschaft” in Forschungs-PR: Das etablierte Portfolio der Wissenschaftskommunikation umfasst von institutioneller Setie weiterhin alles von Pressemitteilung bis zur Kinder-Uni, vom Vortrag für Laien bis zum PR-Bus, der durch die Lande fährt.

Alles gut soweit, es schadet sicher nicht Begeisterung für Wissenschaft zu wecken. Was hier fehlt ist jedoch immer noch der institutionelle Umgang mit Kommunikation unter öffentlichem Druck. Dieses wirklich harte Geschäft überlässt die Gesellschaft weiterhin neuen Formaten wie Podcasts und Videoformaten, die großteils zwar die (finanzielle) Unterstützung öffentlich-rechtlicher Sender erfahren (Beispiel, Beispiel, Beispiel, Beispiel, Beispiel), eine meinungsstarke Erklärbärrolle übernehmen und doch nicht aus den Forschungsinstitutionen hervorgehen.

Die gesellschaftliche Relevanz der Wissenschaft wächst, doch wer sich in das öffentliche Kreuzfeuer begibt muss sich erklären und hat selten den Rückhalt durch das eigene Institut. Viele die dies während der Pandemie auf sich nahmen, fanden die eigene Kommunikatorrolle wesentlich, wussten aber auch, dass ihre eigene Forschung in dieser Zeit leiden und ihre Reputation unter KollegInnen Schaden nehmen kann.

Es braucht – endlich – mehr Rückhalt der Institutionen für diejenigen, die derartige Kommunkation leisen können und wollen. Die ZEIT forderte im Februar “Pressesprecherinnen gehören in die Chefetage!”. Das ist Unsinn! (Der Artikel ist dennoch lesenswert) Ja, Koordination tut not. Eine Lösung jedoch kann keinesfalls in einer Vergrösserung des Wasserkopfes liegen. Mehr Stabsstellen und mehr hohle Pressemitteilungen haben keinen gesellschaftlichen Mehrwert und genau dazu führen PressesprecherInnen in der Chefetage. Professionelle Hilfestellung für diejenigen, die einer aufgeregten Öffentlichkeit Antwort geben müssen – ja, bitte. Doch da die Themen ebenso wenig vorhersehbar sind die die Protagonisten einer zukünftigen Debatte, helfen Leute, die trainieren Hurra-wir-sind-toll-Pressemitteilungen zu verfassen herzlich wenig. Und zwar unabhängig von ihrer Position in der Hierarchie einer Institutions-Verwaltung.

Damit in kontroversen Diskussionen die wissenschaftlich besseren Argumente überhaupt Gewicht erfahren können, benötigt das Publikum “scientific literacy”. Hier sind die Kultusministerien gefordert: Etwas mehr wissenschaftliche Methode in den Lehrplänen. Wer versteht wissenschaftliche Ergebnisse gewonnen werden, kann sie besser gewichten. Ohnehin ist niemand in der Lage alles Schulwissen zu behalten, aber auch politisch motivierte Juristen sollten in ihrem Unverständnis nicht auf die Wissenschaft herabblicken. Bemühungen um “scientific literacy” sind vor allem auch notwendig, weil – ehrlicherweise – wir im Laufe des Lebens alles außerhalb unserer beruflichen und privaten Interessen zu großen Teilen vergessen. Und wer Wissenschaft nicht zum Beruf gemacht hat (und selbst dann) braucht dann und wann Auffrischung: Allgemeinverständlich und leicht zugänglich.

Corona-Pandemie und Klimakrise zeigen, dass Vlogs, Blogs, Podcasts, Zeitungen und selten auch Fernsehprogramme einen guten Beitrag leisten, wenn es darum geht Unsicherheit durch Aufklärung zu bekämpfen. “Wissenschaft lernen” durch reinen Konsum aufbereiteter Wissenschaftsschnipsel kann man zwar nicht. Die positive Wirkung von Wissenschaftskommunikation liegt eher darin: Sie trägt bei einen Minimalkonsens über das Unbestreitbare, das eine breite Mehrheit unserer pluralistischen Gesellschaft anerkennen kann zu erreichen.

Seltsame Wissenschaftsbilder

2021-08-09T18:44:24Z

Wir haben uns an manches gewöhnt in den letzten Monaten. So sehr, dass wir von den selbst erklärten QuerdenkerInnen außer Lügen, Fake News, Selbstvergewisserungsrunden bei Telegram und Twitter und “Privatkanälen” nicht mehr viel erwarten. Hier wird bewusst ignoriert was Wissenschaft ist und wie sie funktioniert. Daneben gibt es noch sehr viel mehr Menschen, die keine wissenschaftliche Ausbildung machten und dennoch eine Meinung zu der Frage “Was ist Wissenschaft?” gebildet haben. Das ist völlig in Ordnung (schließlich haben wir alle auch Ahnung von Schule, ganz besonders, wenn wir Eltern sind, oder?), manchmal kurios und manchmal befremdlich.

Heini Staudinger schrieb bespielsweise in der letzten Ausgabe des “brennstoff”:

Die Wissenschaft kommt oft ziemlich breitspurig daher, im Gehabe von “wir wissen’s”. Oft tut sie so, als hätte sie alles “im Griff”.

Eine Leserbriefschreiberin aus der ZEIT bekundet:

Jeder Wissenschaftler weiß, dass sich mit allen neuen Forschungsergebnissen, wie denen zur Wirksamkeit der Impfstoffe, unser Nichtwissen nicht verkleinert, sondern im Gegenteil mir Fragen als vorher offen bleiben.

Und jemand (nein, nicht der, es gibt noch mehr) schrieb mir, dass die Impfungen mit mRNA-basierten Wirkstoffen ein widerliches Experiment an der Menscheit sei.

In diesen Beispielen ist so ziemlich alles falsch, was nur falsch sein kann. Nun gut, Zyniker mögen einwenden, dass die Impfung einer Bevölkerung das Experiment sei, dass Querdenkern helfen kann ihre Hypothese von der Impfverschwörung zu falsifizieren. Und hyperernsthaft könnte man einwenden, dass es zwar besserwisserische Wissenschaftler gibt, deshalb hat noch nicht “die Wissenschaft” ein “Gehabe” – ich kenne da auch einen übergriffig neugierigen Busfahrer und schließe deshalb nicht, dass “der ÖPNV” ein Problem mit Respekt vor der Privatssphäre hat. Man könnte auch bemerken, und das ist schon etwas kleinlicher, dass es zwar häufig geklärte Fragen neue Fragen aufwerfen, aber deshalb wird nicht das “Nichtwissen” kleiner. Und was ein “Experiment” wirklich ist, scheint ebenso erklärungsbedürftig, wie die Aussagekraft “einer Studie“, wo doch die “eine Studie” so häufig in der Berichterstattung bemüht wird.

Doch das alles geht an der Sache vorbei. Trotz großartiger Wissenschaftskommunikation auf allen Kanälen, wo sogar erklärt wird wo das Problem im flapsigen Bonmots über Wissenschaft liegt, kommt bei vielen Leuten überhaupt nicht an, was das Wesen von Wissenschaft ist. Ein zusätzlicher Blog mit geringer Reichweite wird die riesige Wissenschaftswissenlücke auch nicht füllen helfen. Er wird es aber weiter versuchen.

Tja, stürmische Zeiten sind dies, stürmische Zeiten. Ich bin gespannt wie die wissenschaftskommunikativen und forscherischen Trümmerfelder aussehen werden, wenn der Pandemiesturm vorbeigezogen sein wird. Und bevor sich jetzt der Blog, auf dem es sowieso in den letzten Wochen ruhig war, in die wohlverdiente Sommerpause verabschiedet, für euch noch ein Nicht-Wochenends-Lied zur Erinnerung, dass schon sehr viel stürmischere Zeiten gab:

Bis zum September!

Reprogrammieren mRNA-Impfstoffe das Immunsystem? – Wie man auf eine Studie blicken kann, die Querdenker hochspielen

2021-08-09T10:23:24Z

Dies ist Aussage einer Studie. Und in Querdenkerkreisen, auf ServusTV und Youtube wurde die Studie hochgespielt. Nun, ich habe wenig Ahnung von Immunologie. Und schon die “Sciencecops” vom WDR haben sich mit der Frage beschäftigt und der SWR kommentierte genau diese Studie. Lohnt also ein weiterer Blick?

Nun, ich wurde gebeten die Studie anzuschauen und zu kommentieren. Und ich verstehe, dass durch solche Publikationen die Unsicherheit mancher Beobachter noch verschärft wird.

Ich finde es eigentlich immer besser, wenn so etwas vorher erforscht wird, bevor man es der gesamten Menschheit injizieren möchte und mit hohem psychischem Druck eine Impfung durchsetzen möchte.

Das kann ich verstehen – auch wenn ich denke, dass es praktisch unmöglich ist alle Aspekte einer Impfung zu erforschen, bevor man sie in breiter Masse anwendet. Aber diese Aspekte eigentlich schon, oder? Vielleicht ist es also an der Zeit einmal zu erklären, wie ich persönlich mit Studien in einem unbekannten Fach umgehe. Unter WissenschaftlerInnen ist “How to read a scientific paper” in vielen Varianten beliebt. Man bereitet mit derartigen Artikeln Seminare vor und für eine Tätigkeit als GutachterIn sind sie ein guter Startpunkt. Hier gibt es einige aus dem Bereichen Biologie und Medizin. Vor allem bietet solch ein Einstieg auch die Möglichkeit selber nachzuvollziehen was dran ist an bestimmten Aussagen. Wer sich, wie mein Einsender, die Mühe macht die Originalveröffentlichung herunterzuladen und durch ein Übersetzungprogramm zu schicken, möchte wirklich mehr wissen.

Also, der Reihe nach:

Meint der Begriff, der in den Medien steht, dasselbe in der Wissenschaft?

Wenn “Programmierung” in diesem Blog verwendet wird, dann selbstverständlich im Sinne der Entwicklung von Software für Computer. Hier aber geht es um das Immunsystem und wir wissen: Eine Impfung ist dazu da, das Immunsystem zu “programmieren”, damit es schneller auf unbekannten Viren oder Bakterien reagieren und ernsthafte Erkrankungen besser verhindern kann. Das Immunsystem wird laut dem Titel der Veröffentlichung “The BNT162b2 mRNA vaccine against SARS-CoV-2 reprograms both adaptive and innate immune responses” offenbar umprogrammiert. Also kann es nach einer Impfung seine Arbeit nicht mehr so gut machen, oder?

Aber wir wissen ja schon durch den Vergleich: Programmieren und Programmieren kann nicht dasselbe bedeuten. Grund genug also in solchen Fällen tief durch zu atmen und näher hinzuschauen.

Was für eine wissenschaftliche Veröffentlichung habe ich eigentlich vor mir?

Wissenschaftliche Arbeiten kann man in verschiedene Schubladen stecken, die jeweils ihre Besonderheiten haben. Die besonderen Merkmale dieser Studie – ein Mittelding aus Laborstudie und Feldstudie – sind Laborergebnisse gewonnen von Menschen, die eine Anti-SARS-CoV2-Impfung mit einem mRNA-Wirkstoff erhalten haben. Und natürlich die Inpretation, die durch Videos und Kommentare im Internet herumgeistern.

Eine “Studie” ist etwas Anderes als eine Beschreibung experimenteller Ergebnisse. Studienergebnisse überfluten uns ständig und – machen wir uns nichts vor – viele Studien sind schlicht lausig schlecht: Sie betrachten zu wenige Menschen (Probanden) um sich sicher sein zu können, dass sie keine statistischen Artefakte beschreiben. Sie betrachten eine nicht repräsentative Auswahl von Menschen (wenn man z. B. nur eine handvoll von Studenten aus westlichen Ländern betrachtet, darf man dann seine Schlußfolgerung auf alle Menschen weltweit übertragen? – die Erkenntnis, dass dies zu keinen zuverlässigen Studien führt, hat in der Psychologie zur Prägung des Akronyms WEIRD geführt. Studien, die dieses Label erhalten sind meist nicht verlässlich.). Da gibt es noch viel mehr Probleme, die wir hier beschreiben könnten. Um es kurz zu machen: Experimentelle Ergebnisse sind oft sicherer zu interpretieren, da gibt es jeweils andere wichtige Kriterien. Aber hier haben wir es mit einer Studie zu tun, die experimentelle Ergebnisse beschreibt.

Also:

Wie steht es um die Zahl der Probanden?

Zunächst sind da nur 16 angegeben, davon fiel eine Person aus, weil die Autoren ausschließlich die Wirkung der Impfung betrachten wollten und besagte Person über SARS-CoV-2-Antikörper verfügte. Nun sind 15 Probanden zwar wenig, aber 15 eindeutige Ergebnisse wären durchaus ein Ergebnisse, was nicht weg zu diskutieren wäre! Je geringer ein Effekt jedoch ist, desto größer muss eine Stichprobe sein – sonst kann man den Effekt entweder nicht nachweisen oder, schlimmer noch, man hat die Gefahr ein falsch positives Ergebnis in die Welt hinaus zu posaunen.

Mit einer Stichprobengröße von 15 und dem angegebenen Test liegt die sogenannte statistische Trennschärfe bei ca. 20 % (hierbei habe eine Merkmalsstreuung von 0.5 angenommen – nichts Genaues weiß man nicht, dass ist in der Veröffentlichung nicht genau genug beschrieben). Die Wahrscheinlichkeit, dass die Autoren richtige Ergebnisse vermelden können war bereits vor Beginn der Messungen eher mau.

Aber die Autoren vermelden gute “P-Werte”, richtig? Ein P-Wert ist ein statistischer Klimmzug: Ein P-Wert von von < 0.001 (wie er auch in der Veröffentlichung steht) sagt, dass man sich mit einer Wahrscheinlichkeit von > 1:1000 sicher ist, dass ein festgestellter Unterschied nicht falsch vermeldet wird. Also ziemlich gut, oder?

Nun testen die Autoren aber innerhalb für einen Parameter nicht einmal, sondern 8 bis 12 Mal. Es ist ein beliebter Trick an der Stelle P-Werte nicht zu korrigieren. Das müsste man korrekterweise aber: Wer oft testet, kann auch mal durch reinen Zufall einen Treffer vermelden. Deshalb verlangt sauberes Arbeiten auch eine Anpassung der P-Werte (Wikipedia bietet hier einen Einstieg in das Thema) bei mehrfachen Tests.

Ok, das war jetzt sehr technisch. Man kann sich aber auch einfach mal die Graphiken anschauen: Die meisten Graphiken zeigen überhaupt keinen Unterschied zwischen Geimpften und nicht Geimpften bei den verschiedenen Parametern. Und dort wo doch Unterschiede vermeldet werden scheinen es einzelne Datenpunkte zu sein, die den Unterschied ausmachen. Jede Messung hinter einem Datenpunkt ist fehlerbehaftet. Diesen Fehler können die Autoren hier zwar nicht angeben, weil sie ihn nicht kennen. Das liegt an der Messung. Aber wir können uns fragen: Würden mehr Daten gesammelt, würden sich die Ergebnisse halten können?

Das wissen wir natürlich nicht und deshalb sollte man a) von vornherein mehr Daten sammeln, so dass eben die Trennschärfe der statistischen Tests gut ist und b) sollten wir als Leser einer einzigen Studie sowieso nicht allzu viel “Vorschußvertrauen” geben – und lieber mal genau hinschauen.

Und hier sehen wir auch – vielleicht statistisch “signifikant”, vielleicht auch nicht – Unterschiede. Die Unterschiede sind ziemlich klein, relativ zu den Gesamtgrößen. Wir können uns also fragen: Das soll eine “Umprogrammierung” sein, wodurch andere Krankheitserreger weniger gut bekämpft werden? Oder anders: Rechtfertigen die Befunde die Aussagen einer Studie, dieser Studie?

Wie steht es um die Daten?

Es ist immer gut zu schauen, wie es um die Primärdaten steht. Denn dann zeigen Autoren von ihrer Arbeit überzeugt zu sein: “Liebe Kollgen, schaut ruhig drauf. Ihr werdet keine gravierenden Fehler finden und wenn ihr Fehler findet, nehmen wir eure Kritik gerne an.” ist die Botschaft veröffentlichter Daten. Heutzutage ist das Hinterlegen von Daten auf einer frei zugänglichen Datenbank im Internet eine Selbstverständlichkeit. Viele wissenschaftliche Zeitschriften, gerade im medizinischen Bereich, bestehen darauf. Die Autoren vermelden jedoch:

Data from this study are available upon request.

Wer also nachfragt, bekommt die Daten. Nun ja, es handelt sich um ein sogenanntes Preprint – also eine Vorabveröffentlichung, die noch nicht vom Kollegenkreis in Augesschein genommen wurde. Da kann man eigentlich nicht verlangen, dass die Daten bereits öffentlich sind. Vielleicht werden sie noch veröffentlicht.

Wie ist die Arbeit veröffentlicht? Welche Kommentare zieht eine Veröffentlichung auf sich?

Die Arbeit befindet sich noch im Status des Preprint, hat den Weg in eine wissenschaftliche Zeitschrift also noch nicht gefunden. Wenn auch das sogenannte Peer-Reviewverfahren, bei dem zur Qualitätssicherung wissenschaftliche KollegInnen eine Einrichung zu einer Zeitschrift begutachten und Verbesserungsvorschläge einreichen, nicht perfekt ist – hier ist es noch nicht erfolgt. Auch das sollte zur Vorsicht bei der Interpretation anhalten.

In beiden Fällen – auf einem Preprint-Server und bei Zeitschriftenseiten – gibt es inzwischen häufig eine Kommentarspalte. Auch man hineinschauen und sich zu fragen: Wie wird eine Arbeit in der “wissenschaftlichen Community” aufgenommen? Wie gesagt: Ich habe wenig Ahnung vom Immunsystem. Die meisten Mitlesenden ebenfalls nicht. Aber manche der Leute, die in den Kommentarspalten schreiben haben einschlägige Kenntnisse und es ist möglich auch Antworten zu schreiben. Was Autoren von Artikeln manchmal zur Verteidigung machen – oder eben auch nicht.

Ich finde, die Kommentare gehen in eine ähnliche Richtung wie meine Kommentare und sind obendrein ziemlich kritisch.

Fazit

Egal ob Laie oder nicht: Wir alle können ein Blick in eine wissenschaftliche Veröffentlichung werfen und uns die naheliegenden Dinge fragen. Und dann beurteilen, ob ein Hype um eine Veröffentlichung gerechtfertigt ist.

Bei meiner Recherche habe ich gesehen, dass bereits Correctiv über die Angelegenheit geschrieben hat. Ihr Fazit zum Video Clemens Arvays (mRNA-Impfstoffe: Erste Hinweise auf Langzeitfolgen), der wie so oft Zeter und Mordio schreit, wenn es um mRNA-Imfpungen geht:

Teilweise falsch. Die vorveröffentlichte Studie belegt keine bedenklichen Nebenwirkungen oder Langzeitfolgen. Eine „Reprogrammierung“ des Immunsystems durch Impfstoffe ist nichts Ungewöhnliches und kein Hinweis auf eine Gesundheitsgefahr.

Da bin ich ja noch kritischer und sage obendrein: Die Autoren sollten zunächst zurück ins Labor und mehr Datenpunkte erheben und außerdem an ihren Formulierungen arbeiten. Interessant ist auch, dass einer der Autoren der Studie dort selber mitteilt, dass die Interpretation der Querdenker völlig überzogen ist.

Machen Sie sich bitte immer klar: Viele WissenschaftlerInnen sind völlig zufrieden damit, dass sie mit ihrer Arbeit einen kleinen Erkenntnisgewinn beisteuern können. So eine Studie, wie diese hier mag Schwächen haben (in der Wissenschaft ist völlig normal darauf hingewiesen zu werden und nachzubessern), aber sie kann auch aufzeigen wo näher hinzuschauen ist. Und nicht jeder Sprachgebrauch wie “reprograms … immune responses” rechtfertigt Alarmismus. Für Zellbiologen ist cleavage ein alltägliches Wort ohne erotische Verbindung, auch ich fluche in commits und überhaupt ist der wissenschaftliche Sprachgebrauch manchmal gewöhnungsbedürftig.

Bhakdi – absurde Logik, jetzt auch kackbraun

2021-07-28T15:40:59Z

Ihr hab es ja sicher mitbekommen, auf Tagesschau.de oder Twitter (Beispiel), das der nette “Herr Professor Bhakdi” jetzt auch auf der antisemitischen Saite klingt. Warum dann noch darüber schreiben? Es kann sich doch längst jeder ein Urteil bilden? Unabhängig von Blogs wie diesem?

Weil die Behauptung im Raum steht, dass mittlerweile “zigtausende Ärzte” Unterstützung für die Anliegen Herrn Bhakdis bekundet haben. Weil auch hier immer wieder Bhakdi&Co.-Fans aufschlagen. Und weil sich vielleicht mit jedem neuen Aussetzers des Herrn Bhakdi einige Leute Gedanken machen, ob der Rest seiner “Argumente” denn überhaupt etwas taugt. Denn wer sich fragt, welchen Impact PLURV (Pseudo-Experten, logische Trugschlüsse, unerfüllbare Erwartungen, Rosinenpickerei und Verschwörungstheorien) hat, der wird hier fündig: Viele jubelten Herrn Bhakdi und anderen vorgeblich wissenschaftlich begründet warnenden Pseudo-Experten und Wichtigtuern zu. Die Anhängerschaft scheint riesig und es deutet sich langsam an, dass auch deshalb weniger Mitmenschen das Impfangebot annehmen. Angst und Unwissen in heiliger Allianz.

Und natürlich, weil das Zitat auf tagesschau.de

Das Volk, das geflüchtet ist aus diesem Land, aus diesem Land, wo das Erzböse war, (…), und haben ihr Land gefunden, haben ihr eigenes Land in etwas verwandelt, was noch schlimmer ist, als Deutschland war. (…) Das ist das Schlimme an den Juden: Sie lernen gut. Es gibt kein Volk, das besser lernt als sie. Aber sie haben das Böse jetzt gelernt – und umgesetzt. Deshalb ist Israel jetzt living hell – die lebende Hölle.

absolut korrekt, doch irgendwie unvollständig ist. Man muss sich klarmachen, die Logik ist:

Impfung (mit den Impfstoffen gegen SARS-Cov-2) ist böse -> wer Impfung befürwortet hat eine böse Absicht -> wer Menschen Richtung Impfung stubst oder gar mit Sanktionen für Ungeimpfte droht ist ein Erzschurke. Nötigenfalls wird eine ganze Religion/ein Land in durch Selbstgerechtheit motivierte Sippenhaft genommen!

Wer die Prämissen nicht teilt, kann über diese “Logik” nur den Kopf schütteln. Abermals wird Herr Bhakdi nicht müde seine Zuneigung zu Wissenschaft und wissenschaftlichen Tugenden zu betonen:

Wir sind Wissenschaftler. Wir sind jederzeit bereit unser Unrecht einzuräumen.

Und so wundert er sich darüber von EMA und etablierten Wissenschaftlern kein Feedback zu erhalten*. Umgekehrt lehnt seine “Partei” jede Auseinandersetzung ab, mit der Begründung das Zitat sei “billiges Framing”:

Ein 2-minütiger Ausschnitt aus einem 90-Minuten-Interview. Ohne Kontext. Dafür mit einer absurden Unterstellung. Fertig ist das billige Framing.
Wir als Partei weisen den Vorwurf des Antisemitismus mit aller Entschiedenheit zurück.

— dieBasis (@diebasispartei) July 14, 2021

Ob man bei “die Basis” jenes Video auch angeschaut hat? Schließlich arbeitete der liebe, seriöse Herr Bhakdi genau darauf hin und der Interviewer, Kai Stuth, führt die Frage ein:

Wir hatten ja uns in diesem Interview gestern Abend auch da drauf geeinigt, dass wir das erste Mal nicht mehr Rücksicht auf etwas nehmen, sondern das Risiko eingehen wirklich die Dinge auch beim Namen zu nennen. Die Dinge aufzuzeigen und einfach auch wirklich klar zu benennen. Und deswegen auch einfach ‘ne ganz klare Frage: Ist das was gerade passiert mit dieser Impfkampagne kalkulierter Totschlag oder vielleicht sogar kalkulierter Mord?

Zuvor hatte Herr Bhakdi schon tüchtig vom Leder gezogen und mit Aussagen wie, dass die meisten Ärzte nicht wissen, was sie tun und ernten werden was sie säen, wahrlich nicht Zurückhaltung gezeigt. Er weicht der Frage zunächst aus:

Ob es Mord ist und Totschlag, da will ich mich nicht dazu äußern. Aber kalkuliert ist es allemal. Und kalkuliert mit keiner guten Absicht, sondern – ich fürchte mit einer bösen Absicht.

Das, zusammen mit all den anderen Äußerungen – wir erinnern uns – entspricht der Definition von Verschwörungstheorie nach Butter (wobei Popper das schon vorher auf den Punkt gebracht hat):

Nichts geschieht durch Zufall, alles wurde geplant, nicht ist, wie es scheint, und alles ist miteinander verbunden.

Die kommerzielle Absicht fehlt auch in diesem “Interview nicht”: Selbstverständlich wird immer wieder Werbung für sein Buch beim Goldegg-Verlag gemacht. Und nach einer gewissen Steigerung, landen wir dann bei der eingangs zitierten braunen Soße. Apropos Goldegg … Sein Bestseller-Autor macht dem Verlag wohl doch seit einiger Zeit Sorgen:

Im Verlag gab es offenbar schon länger Bemühungen, Bhakdi vor sich selbst zu schützen. Bei seinem zweiten Corona-Buch habe die Lektorin ihn “enger geführt”, also mehr Einfluss auf den Inhalt als beim ersten Buch und das Hauptaugenmerk dabei auf die medizinische Aspekte des Themas gelegt. “Wir haben auch versucht, auf die Auswahl seiner Interviewpartner einzuwirken, aber er war da wenig offen für Ratschläge”, so die Verlagssprecherin.

Bei Herausgabe des Buches wurde aber offenbar nicht so genau hin geschaut. Auch die frei verfügbaren Anhänge lassen inhaltlich zu wünschen übrig, so kann man beispielsweise erkennen, dass manche Zitate wenig von dem belegen, was Bhakdi und Reiss schlussfolgern. (Mal abgesehen davon, dass man von Wissenschaftlern insgesamt bessere Recherche erwarten darf.) Mittlerweile empfindet man das Verhalten Herrn Bhakdis wohl auch beim Verlag Goldegg als bedrohlich:

Jetzt will der Verlag eine Erklärung von Bhakdi. Es geht darum, ob und wie weiter mit ihm zusammengearbeitet wird. “Bevor wir jetzt mögliche weitere Konsequenzen ziehen, verlangt die Fairness, dass wir dazu mit Herrn Bhakdi sprechen. Wir haben ihn kontaktiert und warten darauf, dass er sich zurückgemeldet.”

Na denn, viel Erfolg!

Fazit

Ja, im Grunde lohnt es nicht erneut über die Thesen Herrn Bhakdis zu schreiben. Wer darüber mehr wissen will wird andernorts (hier, hier und hier) und auch auf Scienceblogs fündig. Aber vielleicht folgen nun wieder etwas mehr Leute dem bhakdischen Imperativ und glauben weniger seiner Autorität, denn wie appelliert Herr Bhakdi gelegentlich: Selber denken! Da sind wir uns immerhin einig …

Also, wer wie Herr Bhakdi von einem “totalitärem Staat” phantasiert, wird sich von keinem Argument überzeugen lassen. Diejenigen jedoch, die bislang dem Herrn Professor glaubten, werden hoffentlich nun genauer hinschauen. Haben Sie Zweifel zum Impfstoff? Fragen Sie Ihre Hausärzte! Fragen Sie denen Löcher in den Bauch! Dafür sind sie da, auch wenn manche Praxis eher einem Durchlauferhitzer gleicht.

+++++

Vor einiger Zeit hätte ich mich noch über eine Stellungnahme Herrn Bhakdis zu meiner Kritik gefreut – meine Anfragen an ihn blieben ebenfalls unbeantwortet. Mittlerweile würde ich mich über Feedback Herrn Bhakdis nicht mehr freuen, frage also auch nicht mehr nach.

PS Wer die URL zum Video haben mag und selber im Netz nicht findet, darf mir schreiben.

Wird es im WiSe weiter Online-Unterricht geben oder darf ich leibhaftig im Kurssaal stehen?

2021-07-28T15:41:20Z

In dieser Woche habe ich ein wenig über die Lehre ab September gesonnen. Werde ich wohl wie im letzten Jahr die etwas umständliche online-Unterrichtsplattform nutzen? Oder, dachte ich während die Sonne mal zwischen den Wolken durchkam, werde ich doch selber wieder einen vollen Kurssaal sehen?

Viele Dozenten an den Universitäten kennen gegenwärtig zwei Zustände zugleich: Im Großen und Ganzen Online-Lehre, aber einige Präsenzpraktika mit Auflagen. Der Senat meiner Universität kündigt an:

Wir werden tun, was uns möglich ist, damit Studierende das Wintersemester in Präsenz erleben können.

Doch selbstverständlich ist in diesen Zeiten nur nichts selbstverständlich in die Zukunft extrapolieren zu können. So müssen Dozenten eigentlich einige Szenarien zugleich berücksichtigen. Eines wo meine Infektionsschutzmaßnamen gelten. Eines wo Studierende anderthalb Meter Abstand halten und mit Maske arbeiten müssen. Und eines in dem der Online-Unterricht weitergeht.

Auf dem Papier klingt “Abstand und Maske” vielleicht machbar. In der Enge der Universität jedoch funktioniert dies mehr schlecht als recht. “Vor Corona” quollen die Vorlesungssäle über. Im vergangenen Jahr war der meiste Unterricht (und meiner sowieso) vollständig online. “Abstand und Maske” böte mir zu wenig Platz in den Kurssälen (von mangelnder Belüftung in den Sälen ohne Tageslicht, die mir zur Verfügung stehen sowieso) – Praktika mit Gruppenarbeit sind besonders schwierig.

Wie man Online-Unterricht vorbereiten muss, weiß ich inzwischen. In den letzten Monaten habe ich eifrig dazu gelernt. Wie man Präsenzunterricht vorbereitet weiß ich auch, habe ich in den Jahren davor gemacht. Doch wie bereitet man alle Szenarien für den “Neustart” zugleich vor? Präsenz- und Online-Unterricht vorbereiten kostet – Überraschung! – mehr Zeit. Zeit welche die meisten Dozenten nicht haben. Die Erklärung meiner Universität bietet keine Anhaltspunkte, wann Entscheidungen getroffen werden und wann man wirklich für das eine oder andere Szenario planen darf. Wie auch? Ob der niederländische Optimismus (man hofft ministerseitig Präsenzunterricht ab September und flexible Dozenten, falls es nicht klappt) zwei weitere Monate durchzuhalten ist, weiß schließlich auch kein Mensch.

Nun verwende ich stets meine Sommerferien (ist ja auch die Erwartung) um wirklich Ferien zu machen. Ein Vorteil der Arbeit im Unterrichtssektor ist denn auch die Einteilung des Jahres in einen Rhythmus, der in Einklang mit den Schulferien zu bringen ist. Vor den Sommerferien gilt es alle möglichen Projekte abzurunden – zumindest so, dass Studierende für gewisse Zeit selbstständig arbeiten können und die Kollegen ohne schulpflichtige Kinder zumindest für kurze Zeit den Ball in der Luft halten können. Danach geht es mit der Familie in die Ferien. Und wenn wir wieder zurück sein werden, beginnen neue Kurse (Programmierung, HPC-Einführungskurs, etc.). Den festen Rhythmus vermisste ich in der Industrie und nur-forschend an Instituten zwar nicht – sein Vorteil ist mit Familie jedoch nicht von der Hand zu weisen. In “normalen Jahren” beginnt das Jahr am 1. Januar, während außer den guten Vorsätzen nichts im Vergleich zum Dezember verändert.

In diesem Jahr ist der akademische Rhythmus ziemlich außer Takt. Die verschiedenen Szenarien sind schlicht nicht ohne Klemmen und Knirschen unter einen Hut zu bringen. Dabei habe ich noch einen einfachen Teil erwischt: Als ITler vermisse ich es zwar in Kursen den direkten Kontakt zwischen den Teilnehmern zu haben und den direkten Feedback, falls es mal in einer Übung nicht klappt – was online wirklich jedes Mal aus den Nasen der Teilnehmenden zu ziehen ist. Aber ansonsten … keine großen Probleme. KollegInnen aus den experimentellen Bereichen haben es schon schwerer. Und die Studierenden haben das Campusleben sowieso zu lange entbehren müssen.

Mein Traum wäre: Erlaubt den Dozenten am Eingang eines Kurs- oder Hörsaales den Impf- und Teststatus zu überprüfen (vielleicht wird mit neuen Virusvarianten sogar beides notwendig?). Und dafür sind Präsenzveranstaltungen wieder möglich.

Lesetipp: Interview mit David Sanders auf Retraction Watch

2021-07-28T15:41:40Z

Vor ein paar Wochen wurde hier im Blog die Arbeit der Wissenschaftsaktivistin Elisabeth Bik vorgestellt, die in einschlägigen Kreisen (Zell-Biologie / Physiologie) dafür bekannt ist bewusst veränderte und gefälschte experimentelle Befunde finden zu können. Sie teilt sehr häufig ihre Entdeckungen den Journaleditoren und Autoren mit, vermerkt sie auf PubPeer und twittert über ihre Arbeit. Leider haben manche Editoren und Journale ein unglaubliches Beharrungsvermögen und sitzen Berichte zu Fälschungen einfach aus:

#ImageForensics #ColdCases
Reported to the journal in 2014. No action. pic.twitter.com/oz1ljRvRSm

— Elisabeth Bik (@MicrobiomDigest) July 6, 2021

Und manchmal gibt es auch den aktiven Widerstand der Überführten, in Form von Klagen und übler Nachrede. An dieser Stelle ist ein Interview mit David Sanders mit der Retraction Watch-Plattform. David Sanders ist bekannt für seine originellen Arbeiten und auch als Wissenschaftkommunikator. Von ihm stammt wohl die Idee des “Molecule of the Year” im Science Magazine. Und David Sanders war federführend daran beteiligt dem Erfinder und Fälscher von Krebsforschungsdaten Carlo Croce das Handwerk zu legen. Der seinerseits, ganz der von sich überzeugte Wissenschaftler, Sanders mit einer diffamierenden Klage überzog.

In diesem Interview zieht er Resümee und beschreibt, was auf ihn zu kam und womit rechnen darf, wer versucht wissenschaftliches Fehlverhalten anzuprangern.

Wie wird man Professor – Neue Ideen aus Utrecht

2021-07-05T14:48:54Z

Herrje, was war ich verwöhnt! Das wurde mir erst klar, als ich aus familiären Gründen meinen Studienort wechseln musste. Damals ging es von Nijmegen in den Niederlanden nach Mainz. Um dort das Studium fortsetzen zu können, musste ich mir meine Studienleistungen anerkennen lassen. Was mich damals geärgert hat, denn es wurde so gut wie nichts anerkannt, ist heute ein Segen – sonst könnte ich die Einleitung so nicht schreiben und wäre um manche Anekdote ärmer.

Gab es in den Niederlanden eine engagierte Einführungsreihe (Praktika und Vorlesungen) mit Dozenten aus der Geologie, Paläontologie, Entwicklungsbiologie, Taxonomie und Entwicklungsgeschichte der Pflanzen und Tiere im ersten Jahr mit dem Ziel einen guten Überblick über die Biologie als Ganzes zu schaffen, so wartete in Deutschland eine totlangweilige Einführung in Pflanzen- und Tierbestimmung und Pflanzenmorphologie ohne Gesamtkonzept. Gab es in den Niederlanden eine fundierte Grundlage in der physikalischen Chemie und Mikrobiologie, bestand die Chemie im deutschen Grundstudium aus Kipp- und Schüttanalytik, dargeboten von unmotivierten Chemikern, die ein möglichst billiges Praktikum für die fachfremden Studiengänge organisierten. Dafür bot die Universität gleich eine Einführung in die Schwurbelei mit einem “Professor” der ernsthaft von der Notwendigkeit der überlichtschnelllen Kommunikation von Zellen faselte, die “Biophotonen” mittels “Tunneleffekt” austauschen.

In späteren Jahren gab es übrigens eine Evaluation des Fachbereichs Biologie zu Mainz durch externe Gutachter. Ergebnis war – oh, Wunder: Reform ist dringend notwendig, aber (zwischen den Zeilen) wohl nur über einen Generationswechsel zu erreichen.

Und heute?

Heute ist vieles besser geworden! Aber man kann immer noch getrost feststellen, dass manche ProfessorInnen besser einen anderen Job gewählt hätten. Zu schlecht ihre Lehre, zu mau ihre Forschung – republikweit und darüber hinaus. Das liegt auch daran, dass der Generationswechsel nicht ein einziger Schritt war. Die Wunde der “Notberufungen” der 70er habe ich ja noch bestaunen dürfen (der “Biophotoniker” war in dieser Gruppe), aber die Zeit heilte auch diese Wunde. Berufungskartelle und anderes Gemauschel, sowie schlechte Angewohnheiten sind schwieriger zu überwinden:

Bespielsweise kenne ich Berufungsrunden noch um den Jahrtausendwechsel in denen die Qualität der BerwerberInnen auf eine Professur sprichwörtlich durch die Masse des Output geschätzt wurde. Für jede Bewerberin, jeden Bewerber gab es einen Ordner. Und darin u. a. der Stapel ausgedruckter Publikationen. Wer den dicksten Stapel hatte, bekam einen Bonus. Die Zahl der Paper in Zeitschriften mit hohem ImpactFactor zählte ebenfalls. Gewichtung von Lehre, Engagement (z. B. für Standards) und sonstigem Leben (z. B. Kindererziehungszeiten)? Fehlanzeige. Die Sekretärin, die als Mittelbauvertreterin teilnahm steuerte geistvoll bei, dass Kandidat X nicht auf “die Liste” gehört, weil er nicht über eine Habilitation verfügt – hatte der Idiot doch tatsächlich die meiste Zeit der Karriere in den USA verbracht! Zumindest diese Haltung kann noch nicht verschwunden sein, warum sonst sollten sich JuniorprofessorInnen noch habilitieren müssen?

Tempus fugit

Auch bei unserem Nachbarn im Nordwesten ist nicht alles Sonnenschein. So spricht die Eingangsgraphik dafür, dass das gerade beschriebene Phänomen der Paperzahlvergleiche auch dort nicht fremd war. Zudem war die akademische Landschaft der Niederlande in den letzten Jahren durch Proteste gezeichnet, vor allem für bessere Arbeitsbedingungen und Karrierewege. Klingt bekannt, oder? Dabei finde ich, dass das tenure track-System (also die Belohnung mit Festanstellung für gute Leistung) dort besser funktioniert als hierzulande und von einem AIO-Modell (und Gehalt!) hätte ich zu meiner Zeit als Doktorand nur träumen können.

Nun aber wagt die Universität Utrecht den großen Schritt. Die Berufung zur Professur (und Beförderungen) soll nicht mehr durch den Ausstoß als ForscherIn dominiert sein. Zu deutlich sind international die dysfunktionalen Seiten der Fokussierung auf viele Veröffentlichungen^{[Bormann & Mutz, 2015]}. Nun also hat man die Vision “Erkennen und Belohnen” einzuführen und dabei sowohl die forschende als auch die politische Seite der Wissenschaftsmedaille zu berücksichtigen.

Ich zitiere:

Die Art und Weise zu ändern mit der Wissenschaft und WissenschaftlerInnen evaluiert und stimuliert werden hat sich als schwierig herausgestellt, weil Kriterien und Gewohnheiten häufig in die akademische Kultur eingebettet sind. Im heutigen System werden ForscherInnen und ihre Wissenschaft nach den Impactfaktoren der Zeitschriften <…> und H-Indices beurteilt, nicht auf Zeichen wirklicher Qualität, wirklicher Anwendbarkeit, echtem Impact und Offenheit.

Unter den Umständen werden open-science-Praktiken häufig gesehen als extra Belastung ohne Belohnung [Anm.: und hierzulande zumindest häufig nur von oben verordnet und nicht wirklich gelebt]. Im schlechtesten Fall werden sie als schädlich für die zukünftige Finanzierung oder Laufbahn gesehen. Forschende am Beginn ihrer Laufbahn sind wohl am stärksten abhängig von der traditionellen Evaluationskultur <…>, einer Kultur die verstärkt wird durch die etablierten WissenschaftlerInnen, aber auch durch institutionelle, nationale [Anm.: so ziemlich überall, inkl. Deutschland] und internationale Bürokratie, inkl. ihrer Finanzierungsträger.

Problem erkannt, Problem gebannt?

Wie will man vorgehen?

In Utrecht will man dem TRIPLE-Modell folgen: teamspirit; research; impact; professional performance; leadership en education. Ach ja, nichts geht in der akademischen Welt über ein schönes Akronym! Ich bin mir sicher euer Herz ist auch erfreut!

Allein, auch die Lektüre des Dokumentes macht mich nicht weiser: Die Frage “Wie kann man die Nicht-Forschungselemente gut messen und gewichten?” bleibt unbeantwortet. Offengestanden finde ich das ein wenig mau. Wie will man denn bei einer anderen Organisation geleben “teamspirit” eines Bewerbers messen? Durch Empfehlungsschreiben? Doch wie heißt es so schön im zitierten Nature-Kommentar?

On a practical level, evaluating researchers on qualities beyond easy-to-measure metrics can be messy and complicated. “It’s going to be quite challenging to apply,” Boselie says. He explains that each department will have to develop its own systems and strategies to identify researchers and academics who are making the most meaningful contributions to their fields. The process might involve interviews with other researchers in a given field, he says. “There are alternative ways to evaluate individuals on their quality.”

Also, wenn jemand schon mehr weiß, wie man ein solches Konzept umsetzen kann, lasst es mich und uns in den Kommentaren wissen. Ich werde jedenfalls meine Fühler mal ausstrecken, aber noch wird aus Utrecht nicht viel zu holen sein – man ist ja noch im Findungsprozess. Eine gute Öffentlichkeitsarbeit ist das in jedem Fall … Im Grunde genommen sogar verdammt gut, wenn ich mir’s recht überlege. Hoffentlich auch mehr als das. Ist ja nicht so, als würden andernorts nicht längst die Lehrqualitäten bei Probevorträgen getestet, die Teamfähgikeit findet ihren Ausdruck auch in den Veröffentlichungen (niemand ist dauerhaft erfolgreich ohne diese Qualität) und “Community Efforts” kann man auch in Publikationen giessen.

Ob man das auch auf Nicht-Professoren übertragen kann? Schließlich lebt eine Universität hat nicht nur an der Spitze und der vielbeschworene Mittelbau braucht nicht allein Perspektive, sondern, einmal eingestellt, auch Entfaltungsmöglichkeiten. Zumindest in Utrecht scheint auch das mit gedacht zu sein.

Und andere Institutionen?

Hat hier schon wer von der San Francisco Declaration on Research Assessment (DORA) gehört? Ich nicht, die Deutsche Forschungsgemeinschaft und viele Verbände in Deutschland schon. Die Deklaration ist kurz und lesenswert. Ob man sie sich hierzulande zu Herzen nimmt?

Pain with PAINS

2021-07-28T15:42:23Z

Die Suche nach neuen Wirkstoffen gegen Krankheiten ist eine langwierige, mühsame und teure Angelegenheit. Innovationen gibt es, aber längst nicht in so schneller Folge wie noch vor einigen Jahrzehnten – jedenfalls wenn die moderne Biotechnologie außer Acht gelassen wird und man den Blick auf Wirkstoffe im Sinne einzelner chemischer Moleküle lenkt.

Zur Findung neuer Wirkstoffmoleküle verwendet man u. a. die Methode des Hochdurchsatz-Screenings, bei dem wirklich viele Substanzen, durchaus Millionen verschiedener Moleküle, auf Bindung an Protein-Ziele oder Veränderungen von Zellen getestet werden. In der universitären pharmakologischen Forschung kommen diese recht teuren Verfahren eher selten oder in etwas kleineren Maßstab als in der industriellen Forschung zur Anwendung. In jedem Fall jedoch kann auch auf Computerverfahren zurückgegriffen werden, mit derer Hilfe Substanzklassen eingegrenzt werden können.

Wie bei allen biochemischen oder informatischen Methoden gibt es einige Hürden, die bei jedem Projekt überwunden werden wollen. Oder auch wiederkehrende Ärgernisse, die es zu bezwingen gilt. So hat vor gut zehn Jahren Jonathan Baell die sogenannten PAINS postuliert (Pan-Assay Interference Compounds)^{[Baell & Holloway, 2010]}. Dies sind Substanzen, die sehr häufig als vielversprechende Substanzen in den Screening-Verfahren auftauchen – und zwar egal, welches Ziel erreicht werden soll. Moleküle also, die zu häufig irgendwie gut binden (oder reagieren), aber unspezifisch. Damit sind sie unerwünscht, weil ein nicht zielgerichtet bindender Stoff keinen therapeutischen Effekt oder aber kolossale Nebenwirkungen haben wird.

Nur wie zum Teufel kann man diese Stoffe ausfiltern? Damit sie auf keinen Fall Tests ruinieren oder gar langwierige Folgetests nach sich ziehen. Und selbstverständlich alles unter der Annahme, dass diese Stoffe keine vielversprechenden Kandidaten für ein Medikament sind. Einfach eine Liste führen? Oder mittels Computer vorselektieren, so dass solche Substanzen erst gar nicht weiter beachtet werden? Ja, wenn das so einfach wäre …. Baell selbst schreibt (eigene Übersetzung nach Baell und Nissink, 2018):

Die Erstellung der PAINS-Datenbank basiert allen auf der (eigenen) Beobachtung – und wurde nicht aktiv hergeleitet von bekannten Toxicophoren (Anm.: Molekülteile, die Moleküle zu Giften werden lassen) oder anderen chemischen Gruppen, die unerwünschte physikochemische oder pharmakokinetische Eigenschaften aufweisen. … es wäre also falsch anzunehmen, dass ein PAIN schlechte pharmakokinetische Eingeschaften aufweist oder jedes Toxicophore ein PAIN wäre.

Das ist genau der Punkt! Kleine Veränderungen an Molekülen können völlig andere Eigenschaften ergeben. Ein PAIN-Teil in einem Molekül, muss das Molekül nicht zwangsläufig zum PAIN machen. Und da auch nur eine recht kleine Menge an Substanzen untersucht wurde, als die PAINS erstmals postuliert wurden nimmt es doch Wunder, dass sie so häufig in der Literatur auftauchen. Tröstlicherweise wird das Konzept auch kritisch diskutiert. Und dennoch möchte bei eigenen Experimenten niemand zu viele falsch positive Kandidatensubstanzen erhalten – und umgekehrt nicht versehentlich geeignete Kandidaten herausfiltern.

An mich wurde die Frage herangetragen, ob man einen PAINS-Filter nicht in einem Computer-Screeningworkflow einbeauen könne (siehe einen früherer Artikel im Blog) und ich war völlig ahnungslos. Als Nicht-Pharmazeut hatte ich davon nie gehört, ein paar Lesestunden weiter schälte sich ein Bild heraus:

Selbstverständlich wird nicht auf Basis ganzer Moleküle gefiltert, sondern auf Basis von SMARTS (SMILES arbitrary target specification) mit deren Hilfe man Molekülteile als eine Zeichenkette definieren kann. Schnell habe ich zwei Listen finden können, welche PAINS als SMARTS definieren. Es gibt noch mehr, doch hier sieht man schon

völlig unterschiedliche
nicht gewartete
nicht annotierte

Inhalte. Ach ja, und Webapplikationen (lies: Blackbox, bei der WissenschaftlerInnen nicht anwenden sollten, weil überhaupt nicht klar ist warum etwas herauskommt und was) gibt es natürlich auch (Beispiel).

Und da fängt der Ärger an. Nicht IT-affinen Wissenschaftlern ist es manchmal schwer zu vermitteln – glaubt mir oder nicht – das eine Software nicht mehr verfügbar ist, weil auf der Seite steht ja, dass sie das ist. Oder gar, dass sie nicht verlässlich arbeiten wird (obwohl es dazu doch ein Paper gibt!1!!). Nachdem man das geschafft hat (also, das Erklären) kommt man bei der Suche auf nach Softwarelösungen auf ein Script wie das oben verlinkte, dass eine nicht näher erläuterte Liste von PAINS zum Input nimmt …

Unabhängig von meinem immer währenden Softwarelamento gibt es grundlegendere Probleme: Dadurch, dass hier irgendwelche Molekülteile irgendeines Tests als Grundlage dienen, kann in einem Screening mit hunderten Millionen von potentiellen Wirkstoffen im Computer natürlich eine große Zahl von Molekülen fälschlicherweise vorab ausgefiltert werden. Einige Brainstorming Sessions und viel Überzeugungsarbeit weiter steht ein Kompromiss: Am Ende des Workflows wird eine Spalte eingeführt, die alle PAINSartigen Kandidatenmoleküle mit einem entsprechenden Warnhinweis versieht. Denn, wie oben schon geschrieben: Es kommt auf den Kontext des Experimentes an, auf das therapeutische Ziel, ob ein PAIN ein PAIN ist – oder vielleicht ein vielversprechender Kandidat, der durch eine winzige Modifikation zu einem spezifischen Binder wird. Oder das PAIN-Molekül weist auf ein “Schwestermolekül” in der Datenbank, das man vielleicht zuvor übersehen hat.

In allen Fällen bleibt: Vorsicht beim Design des Experimentes und des Inputs wird sich auszahlen. Blindes Vertrauen, auf das was irgendwer ins Internet stellt nicht ist wissenschaftlich leichtsinnig. Ich frage mich, wie viele ähnliche Kollaborationen weniger vorsichtig vorgegangen sind …

Zutaten zur Reproduzierbarkeitskrise (9) – runs-on-my-system Software und schwer installierbare Software

2021-07-28T15:42:41Z

Ihr ahnt nicht, was es so gibt in der schönen Welt des wissenschaftlichen Rechnens. Viele Programmierer werfen ihren Nutzern einfach so ihre Software vor die Füsse und kümmern sich danach einfach nicht mehr darum. Schließlich funktioniert die fragliche Software ja. Und wer nachfragt, wie man diese @#-Software ans Laufen bekommt mitunter zurück: “Bei mir funktioniert es doch!” – daher auch der Name “runs-on-my-system”-Software.

Es kann aber auch noch ein Wenig mehr gemeint sein. Natürlich zunächst mal, das ein Programm wirklich nur auf bestimmten Systemen lauffähig ist. Aber auch, wenn Leute wirklich der Meinung sind jede Mindestregel zur Veröffentlichung von Software verletzen zu wollen. Wollen? Ja, wollen! Denn manche Macher schaffen Zumutungen: Da wird irgendwas hingerotzt, Erwartungen werden geweckt, Leute planen damit ihre Projekte und werden schwer enttäuscht.

Ihr merkt, ich schiebe gerade etwas Installierfrust … Also, falls ihr je (als WissenschaftlerIn) eure Software veröffentlichen wollt und euren Nutzern das Leben schwer machen mögt, um ein paar anti-Karma-Punkte sammeln, dann habe ich hier einige Vorschläge:

Die Ziele

hier werden einige Techniken zusammengefasst, die es schwierig machen (wissenschaftliche) Software zu installieren – egal welche Paket Manager (also: Leute) euer Ding aufgreifen werden und egal für welches Paket Managing System oder ob sie dies “per Hand” erledigen
ich nenne einige Entschuldigungen, wie ihr damit davon kommen werdet
und zeige wie man in diesen Punkten zu einem wirklichen Profi wird

Und wozu? Na, klar:

ihr stellt so sicher, dass weniger Leute eure Software nutzen
- sie könnten schließlich Bugs finden, die ihr fixen müsst
- sie werden Fragen stellen, die nach einer Antwort verlangen
- oder im schlimmsten Fall sogar Code beisteuern, den ihr einarbeiten müsst
ihr verhindert überhaupt Beiträge zu eurer Software zu erhalten
- das frisst einfach zu viel Zeit für eure Wissenschaft, muss man sich ja anschauen und testen
- und ihr müsst das auf lange Sicht auch noch warten!

Ok, die Ziellinie ist klar. Wie vorgehen?

1. Kreativer Umgang mit Versionierung und Veröffentlichung

bloß keine semantische Versionierung nutzen!
Shiet, ihr habt gerade veröffentlicht und danach einen kleinen Fehler bemerkt? Kein Problem, fixen und erneut unter derselben Versionsnummer veröffentlichen – merkt sowieso niemand!
besser noch, ihr macht gar keine bugfix releases:
- einfach den NutzerInnen sagen, bei github ein checkout zu machen, um alle updates zu erhalten
- oder eine Webseite aufsetzen, mit einer Anleitung zum selber fixen.
oder erst gar keine Releases/Veröffentlichungen machen
- ein Masterbranch auf github ohne tags oder Versionen tut es auch
- man auch auch ein eigenes Versionsschema erfinden – Verwirrung stiften hilft, wenn die eigene Software nicht genutzt sehen will!
wenn ihr doch versioniert, unbedingt die alten Versionen löschen! Kein Archiv der alten Versionen führen! Am Ende könnte noch jemand nachvollziehen, was ehedem bei einer Datenanalyse schief lief, das darf nicht sein!

Wenn sich doch mal jemand von den Old Boys (wie ich) beschwert, hier ein paar mögliche Gründe, die ihr angeben könnt:

“War bloß eine winzige Änderung, kein Grund ‘ne neue Version raus zu hauen.”
“Geh! Versionierung ist heute sowieso unwichtig geworden!”
“He, Du solltest sowieso nur die aktuelle ‘Version’ nutzen!”
“Die alte Version hatte Bugs, bitte nicht mehr verwenden.”

Oh, und wenn ihr keine Versionierung verwendet, könnt ihr euch besonders beliebt machen mit

strikte Versionsanforderungen für Bibliotheken von denen eure Software abhängt (dependencies)
auf eurer Homepage schreiben warum euch Versionierung so ankotzt und ihr eure Alternative bevorzugt.

Beispiele gefällig? Wie wäre R mit sein hunderten Paketen, die zwar zu > 99 % abwärtskompatibel sind, aber immer schreien “ich kann nur mit der neuesten Version!” (Es gibt einen Weg drum herum, aber automatisiert für potentiell sehr viele Nutzer, muss alles stimmen). Oder Bioconductor? Bioconductor ist seinerseite eine R-Paketsammlung, die häufig in der Bioinformatik eingesetzt wird. Nutzt strikte Versionierung bei allen Abhängigkeiten. Ein x-beliebiges Paket kann mit der Vorgängerversion laufen? Egal! Ein Update wird erzwungen. Ein Update bei einer Abhängigkeit? Her damit! (Man muss aber nicht unbedingt die Version von Bioconductor ändern.)

2. Geschichte eurer Software

Ihr könnt

Leute raten lassen, was sich geändert hat, beim Update eurer Software
oder wenigstens vage Angabe machen (“minor updates & bug fixes”)

Die Entschuldigung hierfür ist offensichtlich: “Hey, schau einfach in die commit-Historie, da steht alles drin!”

3. Abhängigkeiten mitschiffen

Immer wieder beliebt: Alle Abhängigkeiten (Softwarebibliotheken oder Programme, die eure Software benötigt um lauffähig zu werden) sind im Download eurer Software mit dabei. (Ok, dann müsstet ihr eigentlich alle Updates in den Abhängigkeiten immer wieder nachvollziehen und in eurem Download einbauen, aber wer wird denn so kleinlich sein?)

Auch hier sind die Entschuldigungen offensichtlich:

“So ist die Installation einfach einfacher!”
“Wir wissen einfach besser, wie unsere Software zu installieren ist!”

Noch besser natürlich, wenn ihr Änderungen an euren Abhängigkeiten anbringt (z. B. ein Bugfix), das aber den ursprünglichen Entwicklern nicht mitteilt. (“Jeder ist sich selbst der Nächste! Und das ganze Gerede über Reproduzierbarkeit, ach geh!”)

Was auch geht: Nur einige, nicht alle Abhängigkeiten mitschiffen.

4. Magische Installation von Abhängigkeiten

Richtig cool ist es Abhängigkeiten während der Installation aus den Netz zu laden und irgendwie(!) zu installieren.

Auch hier gilt:

“So ist die Installation einfach einfacher!”
“Das Internet ist doch auf jedem System immer erreichbar, oder?”
und natürlich auch: “Oh, das bisschen Redundanz auf Deinem System ist schon nicht so schlimm, oder?”

Oder ihr macht es so richtig schwer Abhängigkeiten irgendwie anders zu installieren, als auf eurem System. Beispiel gefällig?

app: app.o
    g++ -static -o app app.o \
    /usr/lib/libgsl.a \
    /usr/lib/libgslcblas.a \
    /usr/lib/liblapack.a \
    $(LOCAL)/lib/libopenblas.a \
    -lgfortran -lpthread

Dies ist ein Ausschnitt aus einem sogenannten “Makefile”, vor ein paar Tagen gefunden. Man verwendet solche Dateien, um Programme (hier mal “app” genannt) unter Linux zu kompilieren und installieren. Und was ihr seht ist ein sog. Compiler-Aufruf (g++ heißt er in diesem Fall) – etwas um Code in Maschinencode zu übersetzen und (in diesem Fall) ein auführbares Programm zu erstellen.

Das Problem an dieser Stelle? Seht ihr die vielen /usr/lib-Einträge? Sie stehen für bestimmte Verzeichnisse. Und wenn es genau diese auf dem Zielsystem nicht gibt, dann lässt sich diese Software nur installieren, wenn man diese Dinge korrigiert (für Fachleute: einen sog. patch schreibt). Herrlich! So muss man es machen!11!! Und da ist noch was: Seht ihr das -static? Das zwingt zur Erzeugung eines sogenannten statischen Programms wo alle Bibliotheken mit in das Programm geschrieben werden, wodurch dieses sehr groß wird (und noch weitere Probleme erzeugt). Fantastisch!

5. Je mehr Abhängigkeiten desto besser

Wenn der Blogschreiber es mal abgelehnt hat wegen so ‘ner Pillepalle überhaupt auf einer Publikation dabei zu sein, ist dies kein Grund es ihm gleich zu tun. Es ist wirklich gut viele Abhängigkeiten zu haben. Am besten welche, die selber schwer zu installieren sind!

Begründung ist natürlich: “Ich möchte schlicht nicht das Rad neu erfinden müssen.”

Was für tolle Auswirkungen das haben kann, sieht man an NPM. Ein paar Abhängigkeiten entfernt, das halbe Internet fing an zu röcheln. Wissenschaftlich geht auch: Homer, wirklich ein großes Vorbild – hakt viele Punkte unserer Checkliste hier ab. Mit zusätzlichen anti-Karma-Punkten obendrauf.

6. Möglichst viel zur Installation hardcoden

Wie das geht? Siehe Punkt Nr. 3.

Entschuldigungen:

“Wir erwarten eine Standardumgebung!”
“Wir können einfach nicht alles mögliche supporten!”

7. Wahl des Installationstools

möglichst exotisch, wenn es bekannter wird: Wechseln!
irgendwas, was “besonderes” Verhalten aufweist
- z. B. die Umgebung kontrolliert
- oder es unmöglich macht irgendwas zu korrigieren, falls es mal nicht klappt
am Allerbesten: Ein Skript schreiben, zu einem Tool, dass es ohnehin schon gibt. Auf diese Weise ist es richtig schwer sauber zu arbeiten!

Aber klar, ihr wisst es besser:

“Diese modernen tools arbeiten einfach besser!”
“Wir können nicht in der Vergangenheit verharren!”
“Ich schreibe einfach bessere Installationsskripte!”

Richtig gruselig wird es für Anwender, wenn ihr eure Super-Duper-Spezialscripte so benennt wie ein Standardtool – es aber etwas völlig anderes macht. Beispiel: ./configure.

8. Nur teilweise installieren oder interaktive Skripte

Wenn ihr schon irgendwas bereitstellt, dann sollte es die Arbeit nicht ganz machen. Wäre ja noch schöner, oder?!

am besten nichts konfigurierbar halten, alles hardcoden (s.o.)
interaktive Installationsskripte sind das Nonplusultra, sie verhindern zuverlässig, dass ein Paketmaintainer ein einfaches Leben hat!

Für beide Fälle gilt: “So ist es intuitiver!”

Noch ein paar Beispiele gefällig?

Ok, aber werden wir erst mal ernst! Warum sollte man überhaupt Quellcode selber übersetzen wollen? Tensorflow, eine Programmierplattform für maschinelles Lernen, ist so ein Kandidat. Kann man sehr einfach vorkompiliert installieren. Wenn man es selber macht ist es allerdings wesentlich schneller. Aber – ihr könnt ja mal versuchen Tensorflow “von Hand” zu bauen – die Leute hinter Tensorflow decken viele oben genannten Punkte der Checkliste supergut ab und bekommen folglich viele extra anti-Karma-Punkte.

Hier wäre noch ein Beispiel aus der Bioinformatik. Gar nicht besonders, solche Webseiten gibt es häufiger. Was findet man da? Ein unversioniertes Script, ein unversioniertes Quellcodebündel und noch mehr davon. Warum machen die das (sie wissen es besser: auf derselben Seite gibt Projekte, die auf github versioniert werden)? Solcherlei Sorglosigkeit findet man häufiger, z. B. auch hier. Letzte Veröffentlichung ist eine Version 2.4.0, die Seite verrät aber gleich

Unfortunately the 2.4.0 release has a buggy interaction with the boost C++ libraries that causes frequent crashes, therefore it is suggested that the development snapshots linked below be used until the next release.

Den next release gibt es aber nicht, weshalb Bioconda beispielsweise auf einen snapshot von 2015 (also eine bestimmten, aber nicht versionierten und offiziell unterstützten Entwicklungszustand) zurückfällt. Ein Übersetzungsversuch: “Uns ist der Zustand egal, der Entwickler hat irgendwann aufgehört. Es funktioniert oder auch nicht.” (Kleiner Hinweis für Nicht-Programmierer: “boost” sind aktiv entwickelte C++-Bibliotheken, die seit 2015 große Sprünge gemacht haben. Hätte man aktuelle Versionen, man hätte das Problem nicht – bzw. man könnte es nicht auf die Bibliothek schieben. Im Grunde steht da auch: “Wir haben keine Ahnung, wie man das richtig installiert auf einem Multiusersystem (sonst könnten wir ja updaten) und deshalb müssen unsere Nutzer damit leben lernen!” Ich vermute auch: Die Bibliotheken, die auf einem System X statisch eingebunden werden, ergeben nicht immer ein lauffähiges Programm auf System Y. Und dann schreibt man folglich: “has a buggy interaction with the boost C++ libraries that causes frequent crashes”. Ein deftiger Facepalm ist an der Stelle das Mindeste. Und das bei einer Gruppe, “die was mit Informatik macht”.

Im Grunde ist dieser Beitrag eine Bestätigung eines sehr frühen Beitrag im Blog über das Problem der Softwarefinanzierung. Es kommt die Gleichgültigkeit der Entwickler hinzu, weshalb solche Software häufig genug nicht Eingang in öffentliche Quellecodemanagementsysteme wie github & Co findet. Und natürlich weil Anfänger gewisse mentale Hürden zu überwinden haben, was auch damit zusammenhängt, dass sie schlecht betreut werden. Oft jedoch sind informatische Arbeitsgruppen am Werk, die es besser wissen sollten. Manchmal zeigen sie das auch, wandert doch die eine oder andere Software aus derselben Arbeitsgruppe, die auch solchen Mist auf der Homepage hat, doch zu github und wird besser betreut.

Und was passiert, wenn die/der Chef in Rente geht oder eine andere Position annimmt mit der nicht betreuten Software, deren Homepage dann auch früher oder später verschwindet? Genau! Der ultimative Reproduzierbarkeitsgau.

Ein großer Spaß ist auch wenn eine Software eine umständliche Bauanleitung gibt (“so habe ich’s gemacht, sollte bei Dir auch funktionieren” – hier ein Beispiel, es gibt verschiedene Spielarten, in neuerer Zeit auch gerne mit einer shiny Webseite, oft ohne sinnvolle Funktionalität, die andere Lösungen nicht bieten), die so ganz natürlich annimmt alles manuell zusammen zu kramen. Kein wissenschaftliches Problem, aber großer Quatsch. Kommt immer wieder vor.

Zusammengefasst …

… lässt sich sagen:

runs-on-my-system ist manchmal wörtlich zu nehmen. Und das kann man dann in die Tonne kloppen: Alles was damit an Daten analysiert wurde, kann nur vielleicht von den Machern reproduziert werden.
ist häufig als big-binary erhältlich mit viel Ballast oder reine Bloatware. Egal. In jedem Fall erschwert es Reproduzierbarkeit: Wer sagt denn, dass das auf einer CPU von morgen wirklich laufen wird? Immer? Mit allen (teils unnötigen) Abhängigkeiten? Da hilft die Archivierung in Containern oder virtuellen Maschinen nur sehr, sehr bedingt.
gibt es sehr viele Wege der Nutzercommunity das Leben wirklich schwer zu machen.

Meine Wette: Aus der letzten Reproducibility Challenge und anderen Maßnahmen wurde so wenig gelernt, dass sich wenigstens deren deprimierenden Ergebnisse in zehn Jahren wiederholen lassen.

Achtung: Dieser Beitrag ist in großen Teilen inspiriert/abgekupfert durch einen Vortrag von Kenneth Hoste (sehenswert).

Die wissenschaftlichen Qualitäten Herrn Bhakdis

2021-06-06T15:46:28Z

Eigentlich wollte ich ja nicht mehr über Herrn Bhakdi schreiben. Doch in den letzten Wochen wurde ich einige Male gefragt, was ich so denke über Herrn Bhakdis politische Ambitionen? Vielleicht, weil es hier im Blog den einen oder anderen einschlägigen Artikel gab? Kann sein, aber ich bin so wenig Bhakdiologe, wie ich Grund zur Querdenkerologie als Analog zur Kreml-Astrologie sehe. Wir wollen schließlich die Kirche im Dorf lassen und den Damen und Herren Querdenkern und Impfdiffamierern nicht die Bedeutung zukommen lassen, die sie meinen zu haben.

Doch um die Frage kurz zu beantworten (will ja meine Ruhe haben ), denke ich zunächst, dass er keinen Deut auf meine Meinung gibt. Vielleicht sollte wir aber genau hinschauen, was bei der ein-Thema-Partei “die Basis” noch kommen wird, schließlich haben wir mit einer durchweg populistischen Partei mit ihren naiven Vorstellungen von Politikbetrieb bereits genug Ärger. Und doch, ganz ehrlich, finde ich es ganz gut, wenn Bhakdi und seine querdenkenden Freunde in die Politik gehen. Wer findet, dass sie vor Gericht ziehen sollten, statt munter von der Verfassungswidrigkeit aller Maßnahmen gegen das Virus zu fabulieren (weil so ein Gang zu Gericht ist eine nüchterne Sache und entzieht der Schwurbelei Tempo), der muss eigentlich auch gut finden, dass Leute, die glauben zu wenig Gehör zu finden (das es ein Lamento über das Nichtgehörtwerden von “Warnungen” der Bhakdis und Wodargs und … gibt müssen wir nicht wieder und wieder belegen, oder?) in die Politik gehen. Ob ihre Träume wahr werden? Vielleicht ist ein Absturz bei der anstehenden Bundestagswahl ganz gut, um manchen Schurbelzuhörer zu erden – bis dahin wird sicher auch der eine oder andere Impfverweigerer von der Realität eingeholt.

Apropos, nachdem mich Joseph Kuhn von nebenan bat doch zu der D-Dimer-Story des Herrn Bhakdi (vgl. dieser Beitrag) Stellung zu nehmen, fiel mir der Nachbar ein, der mir am letzten Wochenende von Warnungen vor “der Impfung” erzählte, neue “Gerinnungsstörungen” seien berichtet, auch bei Biontech. Das hätte er nicht irgendwoher, sondern habe “ein Professor” im Fernsehen gesagt. Beides zusammen ist wohl doch Grund genug näher hin zu schauen.

Eine kurze Nacherzählung: Herr Bhakdi berichtet auf Rubikon in einem unkritischen “Interview” davon ein Arzt habe sich bei ihm gemeldet und mitgeteilt [Korrektur:] mehr als 30% seiner untersuchten[/Korrektur] Impflinge hätten erhöhte D-Dimerwerte aufgewiesen und das sei ein eindeutiges Alarmzeichen (das, natürlich, von offizieller Seite nicht wahrgenommen würde). Nun wissen wir grundsätzlich nicht, was an den Erzählungen Herrn Bhakdis und seiner Mitstreiter belastbar ist und was nicht. Man muss halt hinschauen …

Also, zunächst einmal sind D-Dimere sogenannte unspezifische Biomarker. Biomarker sind, ganz allgemein gesagt, Hinweisgeber auf dem Weg zur Diagnose oder zur Kontrolle eines Krankheitsverlaufes. Und warum unspezifisch? Weil gezeigt werden konnte, dass D-Dimere im Blut Hinweisgeber auf eine Reihe von gefährlichen Zuständen von PatientInnen sein können oder auch als Ausschlusskriterium dienen können für das Nichtvorhandensein einer Erkrankung. Unter anderem sind sie auch verbunden mit schweren Verläufen von COVID-19^{[Paliogiannis, 2020]}. Kein Wunder, D-Dimere sind Abbauprodukte bei Blutgerinseln.*

Solche unspezifischen Biomarker kennen wir alle von Blutbildern beim Hausarzt, da wird i.d.R. das CRP (C-reaktives Protein) mit erhoben, ein allgemeiner Entzündungsmarker. Ist der Wert erhöht, lohnt es sich näher hinzuschauen, weil u. U. eine Entzündungsreaktion vorliegt. Zur Einschätzung des Wertes oder gar zur Diagnosestellung, braucht es mehr – gute Ärztinnen und Ärzte diskutieren das dann gelegentlich mit ihren Patienten. Vielleicht werden andere Blutwerte “nachgemessen”, vielleicht werden andere diagnostische Verfahren zu Rate gezogen, vielleicht reicht der erste Hinweis, um ein Urteil zu festigen, weil man die Geschichte und andere Parameter bereits kennt.

Wie auch immer, D-Dimere sind deshalb unspezifisch, weil sie ebenfalls bei einer Reihe von Zuständen erhöhte Werte aufweisen können. So möchte man Herrn Bhakdi entgegenrufen: Wo sind die Daten? Wer hat da genau was wie gemessen? Eine Arzt im stillen Kämmerlein oder doch standardisiert durch Einsendung zum Diagnostiklabor? Welches waren die Patienten? Waren da Schwangere drunter, Leute mit Vorerkrankungen (Krebs, rheumatische Erkrankungen, erkrankte Leber, COVID-Genesene, etc. – D-Dimererhöhung kann durch viele Faktoren ausgelöst werden)? Welche Altersverteilung? etc. etc. Wir halten fest: Bislang gibt es nicht mehr Informationen als “ein Typ im Internet behauptet etwas”.

Moment mal! Die Auffälligkeit ergab sich unabhängig vom Wirkstoff? In jedem Fall? (laut Bhakdi!) Das wäre neu. Aus so was könnte man eine wissenschaftliche Veröffentlichung machen, so wie diese, die im Übrigen explizit vermerkt keine Auffälligkeiten beim D-Dimer-Level festgestellt zu haben. Vor allem aber wäre die Befunde alarmierend. Man könnte sie übermitteln, damit Andere gewarnt sind. Für alle, die dies möchten gibt es eine Webseite. Auch der Hinweis auf die Pflicht dies in diesem Fall zu tun, möchte ich nicht lassen. So etwas wird auch nicht unter den Teppich gekehrt, wie Querdenker immer wieder suggerieren, sondern wie der Link zeigt, differenziert diskutiert. Öffentlich.

Joseph Kuhn erhoffte sich eine medizinisch wissenschaftliche Einordnung der D-Dimere: Ist es überhaupt sinnvoll diese zu messen? Insofern ist meine Antwort (und nein, ich gebe nicht vor hämatologische Expertise zu besitzen) vielleicht enttäuschend. Unterm Strich: Ja, das Vorhandensein erhöhter D-Dimere sollte Mediziner sehr hellhörig werden lassen. Man kann sich natürlich fragen, ob eventuell andere Faktoren, wie beispielsweise anti-PF4-Antikörper interessanter wären. Von denen ist bekannt, dass sie eine durch einen Impfstoff ausgelöste Störung des Gerinnungssystems anzeigen können^{[Thiele et al.; 2021]} – was aber alleine nicht hinreichend ist, um eine Gefährdung einschätzen zu können. Bei beiden Parametern kommt es u. a. auf die Stärke des Signals an (auch eine unbeantwortete Frage). Beide Faktoren könnte(!) man messen, u. a. als Kontrollindikatoren. Der Statistiker in mir verlangt eher nach zusätzlichen Parametern – aber welche Parameter erfasst werden hängt vom Design einer Studie und ihrer Fragestellung ab. Nichts, was irgendwer in einem Interview oder Blog aus den Ärmeln schütteln könnte. Und darum geht es ja nicht. Daher klar: D-Dimere messen, um Gefährdungspotential zu messen? Ja, bitte – aber nicht alleine, nicht ohne Kontext und nicht ohne öffentliches Protokoll.

Man kann aber auch, wie das Herr Bhakdi ja gerne – wohlgemerkt ohne erarbeitete Expertise – macht warnen wollen (bzw. Ängste schüren wollen, weil es so schön ist im Rampenlicht zu stehen – was meine Sicht ist). Ohne sich wirklich in ein Thema einzufuchsen. Der Fairness halber sei gesagt: So ein Interview oder Video ist immer verkürzend, nicht alle Studien können ad hoc benannt werden. Aber seriöse Informanten geben die Quellen an.

Everything is easy for the man who doesn’t have to do the work.

Mit dem Spruch haben wir zu meinen Laborzeiten altkluge Kommentare bedacht. Seit Beginn der Pandemie hören wir von Bhakdi und seinen Mitstreitern, wie ungehört sie seien, während sie auf Youtube, KenFM, Fox News, Rubikon, eigenen Webseiten etc. ihre Erkenntnisse und Wahrheiten verbreiten, während wir WissenschaftlerInnen und WissenschaftsbeobachterInnen hier und auf anderen Kanälen kommentieren. Warum nicht? Wer als WissenschaftlerIn ernst genommen werden mag, kann Twittern, Blog schreiben, Podcasts betreiben, in Talkshows sitzen und vieles mehr – sollte aber unbedingt weiterhin wissenschaftlich arbeiten (Beispiel). Wo bleiben die Studien der querdenkenden Wissenschaftler? Wo ihre Reviews? Wo ihre “Letters to the Editor” mit denen sie wenigstens eine Duftmarke der Kritik hinterlassen könnten? Setzen sie sich wenigstens mit den Argumenten ihrer Kritiker auseinander? Also außer, wie Herr Bhakdi, diffamierend von “dem Drosten” zu reden oder der Behauptung, man habe Herrn Şahin (Mitgründer von Biontech) ja schon vor der Pensionierung nicht geglaubt und in der Diskussion alt aussehen lassen (in einem anderen Video von Bhakdi, leicht paraphrasiert)?

Und so geht dieses Mal keine Mail an seinen Verein, die um Antwort bittet. Feedback ist nicht zu erwarten. Für Herrn Bhakdi ist alles ganz einfach – er muss schon lange die Arbeiten selber nicht mehr machen.

* Für die “Experten”: Ich versuche für etwaige LeserInnen zu schreiben, die zuvor Herrn Bhakdi zuhörten – nicht für med. Fachpersonal.

Nur ein Ärgernis? – Blender in Wissenschaft!

2021-06-01T13:48:33Z

Es gibt Tage, da frage ich mich, ob ich zu wenig verdiene. Schließlich erledige ich “nebenher” Lehrleistungen, die zumindest bezüglich der mittleren Semesterwochenstundenzahl so manchen Lehrstuhlinhaber in den Schatten stellt. Da es bei mir um IT geht, könnte ich den Vergleich mit manchem kommerziellen Kurs aufmachen (Beispiel). Aber selbst mit weniger Aufwand einen Onlinekurs erstellen könnte noch einige Eiscremeäquivalente (hausinterne sommerliche Währungsumrechnungseinheit) liefern.

Aber klar, Selbstständige müssen ihre Kosten für derartige Kurse höher ansetzen als Beschäftigte des öffentlichen Dienstes. Es geht auch nicht um Neid und den schnöden Mammon. Man macht sich halt so Gedanken welche Karriere man hätte haben können, wenn man nur nicht so bescheiden wäre. Den Gedanken kennen wir alle. Er verträgt selten das Tageslicht, wissen wir doch um die eigen Grenzen – hoffentlich.

Manchmal begegnen einem jedoch Fälle, die zu denken geben – gerade im wissenschaftlichen Bereich.

Da war der “Senior Data Analyst” einer kleinen Firma der bei mir im Pythonkurs für Einsteiger(!) aufschlug und so überhaupt nichts raffte.
Und der Superprogrammierer, der als Doktorand auch hier im Blog schon (anonym) als schlechtes Beispiel diente, häufiger jedoch mit seiner Arbeit für Erheiterung sorgte, unter anderem zu diesem Artikel anregte und jetzt bei einem großen internationalen Pharmakonzern als Datananalyst arbeitet.
Besonders in Erinnerung: Der PostDoc, der von Gruppe zu Gruppe gelobt wurde, immer wieder studentische Arbeiten betreute und Karriere um Karriere erschwerte, bis seine selber jäh endete – der bis dahin jedoch eine Hoppla-hier-komme-ich-Haltung ausstrahlte, die therapeutisch gegen niedrigen Blutdruck hätte eingesetzt werden können.
Oder die Doktorandin, die von Ihrer Leitung zur technischen Aufsicht der Gruppe bestellt wird – ohne sich selber in die Arbeit hineinfuchsen zu wollen.

Sie alle eint, dass ihr Hochmut sie noch nicht oder zumindest nicht früh genug zum Fall gebracht hat. Und es gibt beliebig viele dieser Charaktere. Manchmal reicht es sogar für die ganz große Karriere – unlängst hatten wir es ja bereits über schwurbelnde, eingebildete und minderfähige Doktores, Professoren und sogar Nobelpreisträger.

Jüngster Fall (in meiner Wahrnehmung) ist Didier Raoult (Wikipedia Fr; Wikipedia De), gewissermaßen der Bhakdi Frankreichs*. Er wurde vor mehr als einem Jahr von der Wissenschaftsbetrugsjägerin Elisabeth Bik darauf hingewiesen, dass es einige Unstimmigkeiten in seiner “Studie” Hydroxychloroquine and Azithromycin treatment of COVID-19 infections gibt. Wir erinnern uns: Diese “Studie” hat den populistischen Hype um das “Covid19-Heilmittel Hydroxychloroquin” mit angetrieben.

Damit hätte die Angelegenheit erledigt sein können, doch die netten Coronaleugner von nebenan unterscheiden sich häufig in ihrer Überzeugung und Dünnhäutigkeit nicht von “Gallionsfiguren der Bewegung”. Herr Raoult jedenfalls beeilte sich gleich auf Twitter gegen Frau Bik auszuteilen – mit der Konsequenz, dass sie zu Graben anfingen und gar wissenschaftliches Fehlverhalten nachweisen konnte. Und dies ist der Grund, warum ich ihn auch als Blender betrachte: Sein unflätiges Gehabe ist zwar unangenehm, aber in einem Punkt nur wirklich relevant. Zwar kann er Frau Bik verklagen und die wissenschaftliche Community kann mit offenen Briefen antworten (hier die Version zum Mitzeichnen), aber sein Umgang mit Fehlern ist bezeichnend: Es ist offenbar nicht so, dass da Abbildungen verwechselt, Daten verschwunden sind oder man Verantwortung für Fehler eines Mitarbeiters übernähme, neeein man muss erst einmal abstreiten und austeilen! Und das obwohl mittlerweile, vielleicht nicht juristisch, aber doch im wissenschaftlichen Sinn, mehrfaches wissenschaftliches Fehlverhalten nachgewiesen wurde und man mittlerweile überhaupt nicht mehr weiß welche wissenschaftliche Veröffentlichung des Herrn Raoult noch valide ist – mal abgesehen von dem Schaden, den er pandemiebezogen angerichtet haben mag.

Auch hierzulande und nicht allein im biologisch-medizinischen Bereich gab es in der jüngeren Vergangenheit größere ähnliche Wissenschaftsskandale (Psychologie, Paläontologie), verursacht durch Gernegrößen bzw. Gernenochgrößergrößen (als ob man nicht “oben” wäre, wenn man als ProfessorIn ein Labor leitet). Was man dagegen tun kann? Ich weiß es nicht. Gegen die Titelhuberei gibt es den Vorschlag den “Dr. med” abzuschaffen und auch darüber hinaus noch weitere Doktortitel. Und das ist schon ein sehr dickes Brett, dass es da zu bohren gilt. Letztlich sind wir alle gefordert: Von uns, die wir studentische Arbeiten betreuen, bis zu den Universitäten und Forschungseinrichtungen. Und wo individuelle Verantwortung für eine Veränderung notwendig ist, geschieht, wie das Beispiel der Bekämpfung des Klimawandel lehrt, mitunter lange wenig. Jemanden durchs Praktikum, die Bachelor-/Masterarbeit oder gar die Promotion rasseln lassen ist sehr aufwendig: Es gilt alle Details zu protokollieren und am Ende einen Eklat durchzufechten. Einer Universität die gegen Scharlatane in den eigenen Reihen vorgehen will geht es nicht anders. Bei Institutionen die gegen Betrüger und Scharlatane vorgehen wollen kommt hinzu, dass alle Beteiligten sich absichern wollen und pro-aktives Handeln durch die Hierarchie gebremst wird.

Blender-Prävention ist schwer.

Update [1. Juni 2021]: Nature hat den Fall Raoult vs. Bik mal zusammengefasst. Und Bik schreibt selber noch mal die Kurzfassung zu dem Paper in einem Twitterthread – sehr nüchtern und klar:

Here is my first analysis of the new @IHU_Marseille preprint called 'Early Treatment with Hydroxychloroquine and Azithromycin in 10,429 COVID-19 Outpatients: A Monocentric Retrospective Cohort Study'
Found here: (not sure why in April 2020 folder).https://t.co/ETz75b4PlO

— Elisabeth Bik (@MicrobiomDigest) May 31, 2021

.*schwurbelnder Professor am Karriereende, der in der Vergangenheit schon durch Meinungsstärke in Feldern abseits seiner Expertise aufgefallen ist.