Wer von euch hat schon mal wissenschaftlich gearbeitet? Eine Diplom-, Bachelor-, Master- oder gar Doktorarbeit? Dann habt ihr auch Datenmanagement betreiben müssen. Die Wahrscheinlichkeit ist groß und sie steigt mit dem Alter eurer Arbeit auf 100 %, dass dieses “Datenmanagement” darin bestand alle Daten auf CD oder (etwas moderner) auf einem Rudel von Festplatten zu spielen, die irgendwo in den Katakomben eurer Arbeitsgruppe (oder Regal mit bedrohlich durchgebogenen Regalbrettern oder Schubladenschrank, wo man lange rütteln muss, bis Platz für eure Festplatte entstand oder … oder … oder) verschwanden. Damit war der Archivierungspflicht Genüge getan, die Arbeit wurde abgegeben und ihr wandtet euch neuen Ufern zu.
Vergleiche mit galaktischen Verkehrswegeplänen, deren Pläne selbstverständlich öffentlich auslagen (in einem verschlossenen Aktenschrank in einer unbenutzten Toilette, mit einem Schild, das vor einem bissigen Leoparden warnte, im Keller ohne Licht, zu dem eine kaputte Treppe führte) drängen sich förmlich auf. Denn solcherlei “archivierte” Daten lassen sich einfach selten nur wieder sinnvoll nutzen und wenn das alles mit öffentlichen Geldern finanziert wird, dann hat die Öffentlichkeit auch ein Recht an Wiederauffindbarkeit und Nutzung von Forschungsdaten. Wir, und auch alle Forschungsförderer, erkennen also, dass so eine bloße Archivierungspflicht von Forschungsdaten vollkommen unzureichend ist.
Deshalb kam man auch hierzulande (mit freundlich nudgender Unterstützung unserer europäischen Freunde, die da häufig weiter waren und womöglich auch aufgrund einiger Forschungsskandale, die mit fehlenden oder gefälschten Daten zu tun hatten) auf die Idee mehr zu fordern: Die Einreichung eines Antrags auf Forschungsförderung ist immer häufiger mit der Auflage verbunden, auch einen “Forschungsdatenmanagementplan” einzureichen.
Und das ist nicht nur ein Wortungetüm, sondern auch ein Problem. So ein Datenmanagementplan klopft einige Punkte ab und ist eigentlich ein “fließendes Dokument” – Änderungen können während der Projektlaufzeit nicht nur erfolgen, sondern das wird auch erwartet. Der Plan lässt die Planer an Punkte denken wie “welche Daten sollen zu welchen Zeiten archiviert werden?”, “welche Metadaten sollen mit den zu speichernden Daten verknüpft werden?”, “welche Kosten muss ich berücksichtigen?”, etc. etc. etc..
Außerdem sollen wissenschaftliche Daten noch hehren Ansprüchen genügen: “Findable, Accessible, Interoperable, and Re-usable”. Diese sogenannten F.A.I.R.-Prinzipien der Forschungsdaten klingen toll und stellen alle in der Praxis vor ein Problem – eben ein Datenproblem. Die Anforderungen sind gestiegen, also wurde das Problem größer. Einfach allen Krempel auf die Festplatte aus dem Elektronikmarkt von nebenan spielen reicht nicht mehr – ganz zu schweigen davon von der Geduldsprobe die 300 Terabyte Rohdaten einer Messkampagne oder großen Studie zusätzlich zu den bis zu 500 Terabyte Ergebnis- und Protokolldaten auf USB-Festplatten zu spielen. Aber dröseln wir die Probleme mal der Reihe nach auf, dann werden vielleicht auch die Anforderungen klarer.
Das (Meta-)Datenproblem
Die Forderung nach Auffindbarkeit der Daten bringt mit sich, dass diese Daten mit sogenannten Metadaten garniert werden. Wenn Forschungsdaten nur einen Namen haben (“Wichtiges Projekt mit Supermaschine aufgenommen”) und eine Liesmich.txt-Datei vorhanden ist, in der ein(e) JungforscherIn kurz beschreibt, was man meint gemacht zu haben, dann ist das mehr als nichts, aber eigentlich nicht ausreichend. Damit irgendwer mit den Daten wirklich etwas angefangen kann, wenn es hart auf hart kommt und die Daten erneut analysiert werden müssen, braucht es etwas mehr, nämlich ausreichend viele und gute “Metadaten”.
Metadaten sind Daten, die einen (Forschungs-)Datensatz beschreiben. Wir können da zwischen technischen Metadaten (wie viel, welches Format) und den beschreibenden Metadaten (was wurde wissenschaftlich wie gemacht?) unterscheiden. Die Beschreibung ist besonders wichtig und kann Angaben zu Nutzungsrechten sowie die verwendeten Methoden und Analyseparameter umfassen§.
Wo das Problem liegt? Erfahrungsgemäß darin, dass zu spät an die Beschreibungen gedacht wird. Glücklich, wer ein (elektronisches) Laborbuch gewissenhaft führte. Allein reicht das penible Erfassen aller Parameter nicht aus. Keine Frage, das ist viel wert und damit lassen sich Publikationen oder auch Metadatenbeschreibungen der Forschungsdatensätze deutlich leichter verfassen. Der Prozess der Metadatenerfassung drei Jahre nach Projektbeginn und Datensammlung ist allerdings so fehleranfällig wie alle Arbeiten, die man kurz vor einer Deadline anfängt.
Mit anderen Worten: So so Datenmanagement, wozu auch die systematische Erfassung von Metadaten gehört, geschieht idealerweise projektbegleitend. Aber wenden wir uns zunächst noch der technischen Seite zu:
Technik- und Sicherheitsprobleme und ihre Lösungen
Die Terabyteplatte kostet beim Elektronikladen weniger als 50 €. Arbeitsgruppenleitungen, die ihren PostDocs 50 € pro Terabyte zu archivierender Daten in die Hand drücken, haben eine Win-Win-Situation: Datenproblem? Erledigt ✔ . Mit dem Restgeld jedem ‘ne Kugel Eis spendiert und somit die Stimmung gehoben? Erledigt ✔.
Nun sind zwar moderne externe SSD-“Platten” theoretisch sehr lange haltbar, wenn sie nicht belastet werden, aber unbemerkte Speicherfehler können sehr früh auftreten[Pincorili et al., 2021] und gespeicherte Daten ins Nirwarna senden. Für HDD-Festplatten habe ich keine Zahlen finden können, wie lange diese ohne Strom Daten verlustfrei speichern können (wenn jemand eine Quelle hat, wird hier der Link stehen). Allerdings kann man aufgrund der magnetischen Komponenten nicht davon ausgehen, dass etwaige Fehler aufgrund astronomischer Ereignisse oder Magnetisierung im Umfeld von Laboren ausgeschlossen werden können. Kurz: Viele dieser Speichermedien werden die Zeit unbeschadet überstehen – manche nicht und wo auf diese Weise extrem viele externe Medien in den Schubladen verschwinden, sind Ausfälle unvermeidlich.
Professionelle Lösungen vermeiden solche Bastellösungen und etablieren routiniert mindestens folgende Features:
- automatische Speicherung auf verschiedenen Medien (bei uns SSD und Bänder)
- automatische Speicherung an verschiedenen Orten (bei uns im Rechenzentrum und in einer zweiten Dependance auf dem Campus)
- automatisiert regelmäßige Kontrolle der archivierten Dateien und ihrer Prüfsummen. Erneute Kopie der Dateien und Aussonderung fehlerhafter Medien (SSDs oder Bänder) im Fall einer fehlerhaften Kopie oder fehlerhaften Mediums.
Damit ist jedoch nicht einmal der technische Teil vollständig abgedeckt und (zugegebenermaßen nur) grob beschrieben – die Sicherheit gegen Hacking spielt auch eine große Rolle. Während der Plattenhaufen in den professoralen Schubladen allenfalls gegen Einbruch geschützt werden muss, sind Daten auf netzfähigen Geräten (auch wenn nur indirekt im Internet) besonders zu schützen. Verschlüsselung und rigide Zugangsbeschränkungen sind zu verbinden mit optionalen, einfachem Zugang zum Download. Vergabe von digital object identifiers (DOI) ist im professionellen Umfeld selbstverständlich und fördert die Publikation nachvollziehbarer und dauerhaft zugänglicher Forschungsergebnisse, da diese DOIs bei einer Publikation gleich mit angegeben werden können. Undsoweiter, undsoweiter …
Damit ist klar: Die 50 € für das Terabyte sind eine Schwelle, die bei professionellem Datenmanagement hemmungslos, aber gut begründet überschritten wird. Personalkosten, Gerätekosten und Kosten der Medien läppern sich zusammen. Außerdem wurde aus dem Datenproblem ein zusätzliches Technikproblem, denn wer forscht möchte und kann sich nicht auch noch mit spezifischen Interfaces einer Archivierungssoftware mit umständlicher Metadatenschnittstelle herumplagen. Kurse und Workshops können nur einen Teil der Klientel erreichen, weiteres Personal wird benötigt, um den nur sporadisch auftretendem Archivierungsbedarf der einzelnen Projekte in wenig technikaffinen Bereichen gerecht zu werden.
Die politische Lösung …
… ist natürlich schon gefunden, denn wo ein wissenschaftlich-organisatorisches Problem dieser Größenordnung schwelt, ist auch eine wissenschaftspolitische Lösung nicht weit**. So gab es 2018 bereits eine Bund-Ländervereinbarung, die mit 90 Millionen Euro bis 2028 eine “Nationale Forschungsdateninfrastruktur” (NFDI) fördern will. Konkret bedeutet dies, dass sich innerhalb von Fachgebieten interessierte Vorreiter zusammenfinden, um eine NFDI4Irgendwas zu gründen. Die Liste der Beispiele ist lang, NDFI4Chem (für das Forschungsdatenmangement in der Chemie), NFDI4Culture (selbes Ziel bzgl. Forschung zum kulturellen Erbe), NFDI4Biodiversity (selbes Ziel bei der Forschung zur Biodiversität), NFDI4Phys (für Forschung in der Physik – auch transdizipliär) sind nur wenige Beispiele. Einen Überblick über die verschiedenen Initiativen bietet die Hauptseite der NFDI.
Das ist schon mal ziemlich gut: Fachgruppen, die sich systematisch Gedanken über ihre spezifischen Anforderungen machen und die Frage, wie diese Datenmanagementanforderungen konkret umzusetzen sind. In den einzelen NFDI werden auch Lösungen, sowohl organisatorischer Art (z. B. Leitfäden) als auch technischer Art (z. B. das ein oder andere Konversionsscript), entwickelt. Gut auch, dass es mittlerweile möglich ist bei Großprojekten Personal für Datenmanagement mit zu beantragen.
Damit hätte dieser Beitrag ausnahmsweise einmal gut enden können. Ist doch gutes Forschungsdatenmanagent zweifelsohne ein wichtiger Beitrag gegen die Reproduzierbarkeitskrise: Keine gute Metaanalyse ohne Zugriff auf Daten Dritter. Keine Möglichkeit der Reproduzierung ohne Möglichkeit des detaillierten Vergleichs mit den Resultaten Dritter. Doch leider bedeutet der relativ billige Speicher für USB-Speichermedien im Vergleich zu den Alternativen im professionellen Bereich, dass den Stapeln dieser externen Speicher im Professorenbüro das letzte Stündlein nicht geschlagen hat. Und der Umstand, dass das Personal für Datenmanagement in Großprojekten ausschließlich für die Projektdauer Beschäftigung finden wird, lässt befürchten, dass viel erworbene Kompetenz wieder verloren gehen wird – wie so häufig im akademischen Bereich.
+++
§ An dieser Stelle müsste man bei jeder Diziplin und jeder Methodik ins Detail gehen. Mehr als allgemeine Statements wird es vorerst hier nicht geben.
** Sarkasmus gefunden? Darf man behalten!
Kommentare (11)