Wer von euch hat schon mal wissenschaftlich gearbeitet? Eine Diplom-, Bachelor-, Master- oder gar Doktorarbeit? Dann habt ihr auch Datenmanagement betreiben müssen. Die Wahrscheinlichkeit ist groß und sie steigt mit dem Alter eurer Arbeit auf 100 %, dass dieses “Datenmanagement” darin bestand alle Daten auf CD oder (etwas moderner) auf einem Rudel von Festplatten zu spielen, die irgendwo in den Katakomben eurer Arbeitsgruppe (oder Regal mit bedrohlich durchgebogenen Regalbrettern oder Schubladenschrank, wo man lange rütteln muss, bis Platz für eure Festplatte entstand oder … oder … oder) verschwanden. Damit war der Archivierungspflicht Genüge getan, die Arbeit wurde abgegeben und ihr wandtet euch neuen Ufern zu.

Update: An dieser Stelle stand zuvor, dass ich das oben beschriebene Bild wahrlich hunderfach im Kopf habe (und auch einige Fotos). Doch leider habe sich bis jetzt kein mutiger Mensch in Leitungsposition gefunden, der ein abschreckendes Beispielbild (z. B. Schrank voll mit CDs und Festplatten) zur Verfügung stellte. — Inzwischen gibt es diese beiden Bilder. Das linke, eingesendet von Leser “rolak” zeigt eine Schublade mit alten Disketten, die es einmal “richtig” zu archivieren galt. Rechts sehen wir die Einsendung eines Münchner Lesers, der im Job die Aufgabe hatte alte Backups zu retten. (Damit stellt sich einmal mehr die Frage, ob man nicht mal den Unterschied zwischen Backup und Archivieren bebloggen sollte …). Beide Bilder stehen unter CC0. Was ich eigentlich suche ist etwas mit mehr “Ambiente”, wo man wirklich sieht, dass es aus einem Büro stammt. Wer so was hat und teilen mag, maile mir gerne – ich glaube, die obige Collage ist gut erweiterbar.

 

Vergleiche mit galaktischen Verkehrswegeplänen, deren Pläne selbstverständlich öffentlich auslagen (in einem verschlossenen Aktenschrank in einer unbenutzten Toilette, mit einem Schild, das vor einem bissigen Leoparden warnte, im Keller ohne Licht, zu dem eine kaputte Treppe führte) drängen sich förmlich auf. Denn solcherlei “archivierte” Daten lassen sich einfach selten nur wieder sinnvoll nutzen und wenn das alles mit öffentlichen Geldern finanziert wird, dann hat die Öffentlichkeit auch ein Recht an Wiederauffindbarkeit und Nutzung von Forschungsdaten. Wir, und auch alle Forschungsförderer, erkennen also, dass so eine bloße Archivierungspflicht von Forschungsdaten vollkommen unzureichend ist.

Deshalb kam man auch hierzulande (mit freundlich nudgender Unterstützung unserer europäischen Freunde, die da häufig weiter waren und womöglich auch aufgrund einiger Forschungsskandale, die mit fehlenden oder gefälschten Daten zu tun hatten) auf die Idee mehr zu fordern: Die Einreichung eines Antrags auf Forschungsförderung ist immer häufiger mit der Auflage verbunden, auch einen “Forschungsdatenmanagementplan” einzureichen.

Und das ist nicht nur ein Wortungetüm, sondern auch ein Problem. So ein Datenmanagementplan klopft einige Punkte ab und ist eigentlich ein “fließendes Dokument” – Änderungen können während der Projektlaufzeit nicht nur erfolgen, sondern das wird auch erwartet. Der Plan lässt die Planer an Punkte denken wie “welche Daten sollen zu welchen Zeiten archiviert werden?”, “welche Metadaten sollen mit den zu speichernden Daten verknüpft werden?”, “welche Kosten muss ich berücksichtigen?”, etc. etc. etc..

Außerdem sollen wissenschaftliche Daten noch hehren Ansprüchen genügen:  Findable, Accessible, Interoperable, and Re-usable”. Diese sogenannten F.A.I.R.-Prinzipien der Forschungsdaten klingen toll und stellen alle in der Praxis vor ein Problem – eben ein Datenproblem. Die Anforderungen sind gestiegen, also wurde das Problem größer. Einfach allen Krempel auf die Festplatte aus dem Elektronikmarkt von nebenan spielen reicht nicht mehr – ganz zu schweigen davon von der Geduldsprobe die 300 Terabyte Rohdaten einer Messkampagne oder großen Studie zusätzlich zu den bis zu 500 Terabyte Ergebnis- und Protokolldaten auf USB-Festplatten zu spielen. Aber dröseln wir die Probleme mal der Reihe nach auf, dann werden vielleicht auch die Anforderungen klarer.

Das (Meta-)Datenproblem

Die Forderung nach Auffindbarkeit der Daten bringt mit sich, dass diese Daten mit sogenannten Metadaten garniert werden. Wenn Forschungsdaten nur einen Namen haben (“Wichtiges Projekt mit Supermaschine aufgenommen”) und eine Liesmich.txt-Datei vorhanden ist, in der ein(e) JungforscherIn kurz beschreibt, was man meint gemacht zu haben, dann ist das mehr als nichts, aber eigentlich nicht ausreichend. Damit irgendwer mit den Daten wirklich etwas angefangen kann, wenn es hart auf hart kommt und die Daten erneut analysiert werden müssen, braucht es etwas mehr, nämlich ausreichend viele und gute “Metadaten”.

Metadaten sind Daten, die einen (Forschungs-)Datensatz beschreiben. Wir können da zwischen technischen Metadaten (wie viel, welches Format) und den beschreibenden Metadaten (was wurde wissenschaftlich wie gemacht?) unterscheiden. Die Beschreibung ist besonders wichtig und kann Angaben zu Nutzungsrechten sowie die verwendeten Methoden und Analyseparameter umfassen§.

Wo das Problem liegt? Erfahrungsgemäß darin, dass zu spät an die Beschreibungen gedacht wird. Glücklich, wer ein (elektronisches) Laborbuch gewissenhaft führte. Allein reicht das penible Erfassen aller Parameter nicht aus. Keine Frage, das ist viel wert und damit lassen sich Publikationen oder auch Metadatenbeschreibungen der Forschungsdatensätze deutlich leichter verfassen. Der Prozess der Metadatenerfassung drei Jahre nach Projektbeginn und Datensammlung ist allerdings so fehleranfällig wie alle Arbeiten, die man kurz vor einer Deadline anfängt.

Mit anderen Worten: So so Datenmanagement, wozu auch die systematische Erfassung von Metadaten gehört, geschieht idealerweise projektbegleitend. Aber wenden wir uns zunächst noch der technischen Seite zu:

Technik- und Sicherheitsprobleme und ihre Lösungen

Die Terabyteplatte kostet beim Elektronikladen weniger als 50 €. Arbeitsgruppenleitungen, die ihren PostDocs 50 € pro Terabyte zu archivierender Daten in die Hand drücken, haben eine Win-Win-Situation: Datenproblem? Erledigt ✔ . Mit dem Restgeld jedem ‘ne Kugel Eis spendiert und somit die Stimmung gehoben? Erledigt ✔.

Nun sind zwar moderne externe SSD-“Platten” theoretisch sehr lange haltbar, wenn sie nicht belastet werden, aber unbemerkte Speicherfehler können sehr früh auftreten[Pincorili et al., 2021] und gespeicherte Daten ins Nirwarna senden. Für HDD-Festplatten habe ich keine Zahlen finden können, wie lange diese ohne Strom Daten verlustfrei speichern können (wenn jemand eine Quelle hat, wird hier der Link stehen). Allerdings kann man aufgrund der magnetischen Komponenten nicht davon ausgehen, dass etwaige Fehler aufgrund astronomischer Ereignisse oder Magnetisierung im Umfeld von Laboren ausgeschlossen werden können. Kurz: Viele dieser Speichermedien werden die Zeit unbeschadet überstehen – manche nicht und wo auf diese Weise extrem viele externe Medien in den Schubladen verschwinden, sind Ausfälle unvermeidlich.

Professionelle Lösungen vermeiden solche Bastellösungen und etablieren routiniert mindestens folgende Features:

  • automatische Speicherung auf verschiedenen Medien (bei uns SSD und Bänder)
  • automatische Speicherung an verschiedenen Orten (bei uns im Rechenzentrum und in einer zweiten Dependance auf dem Campus)
  • automatisiert regelmäßige Kontrolle der archivierten Dateien und ihrer Prüfsummen. Erneute Kopie der Dateien und Aussonderung fehlerhafter Medien (SSDs oder Bänder) im Fall einer fehlerhaften Kopie oder fehlerhaften Mediums.

Damit ist jedoch nicht einmal der technische Teil vollständig abgedeckt und (zugegebenermaßen nur) grob beschrieben – die Sicherheit gegen Hacking spielt auch eine große Rolle. Während der Plattenhaufen in den professoralen Schubladen allenfalls gegen Einbruch geschützt werden muss, sind Daten auf netzfähigen Geräten (auch wenn nur indirekt im Internet) besonders zu schützen. Verschlüsselung und rigide Zugangsbeschränkungen sind zu verbinden mit optionalen, einfachem Zugang zum Download. Vergabe von digital object identifiers (DOI) ist im professionellen Umfeld selbstverständlich und fördert die Publikation nachvollziehbarer und dauerhaft zugänglicher Forschungsergebnisse, da diese DOIs bei einer Publikation gleich mit angegeben werden können. Undsoweiter, undsoweiter …

Damit ist klar: Die 50 € für das Terabyte sind eine Schwelle, die bei professionellem Datenmanagement hemmungslos, aber gut begründet überschritten wird. Personalkosten, Gerätekosten und Kosten der Medien läppern sich zusammen. Außerdem wurde aus dem Datenproblem ein zusätzliches Technikproblem, denn wer forscht möchte und kann sich nicht auch noch mit spezifischen Interfaces einer Archivierungssoftware mit umständlicher Metadatenschnittstelle herumplagen. Kurse und Workshops können nur einen Teil der Klientel erreichen, weiteres Personal wird benötigt, um den nur sporadisch auftretendem Archivierungsbedarf der einzelnen Projekte in wenig technikaffinen Bereichen gerecht zu werden.

Die politische Lösung …

… ist natürlich schon gefunden, denn wo ein wissenschaftlich-organisatorisches Problem dieser Größenordnung schwelt, ist auch eine wissenschaftspolitische Lösung nicht weit**. So gab es 2018 bereits eine Bund-Ländervereinbarung, die mit 90 Millionen Euro bis 2028 eine “Nationale Forschungsdateninfrastruktur” (NFDI) fördern will. Konkret bedeutet dies, dass sich innerhalb von Fachgebieten interessierte Vorreiter zusammenfinden, um eine NFDI4Irgendwas zu gründen. Die Liste der Beispiele ist lang, NDFI4Chem (für das Forschungsdatenmangement in der Chemie), NFDI4Culture (selbes Ziel bzgl. Forschung zum kulturellen Erbe), NFDI4Biodiversity (selbes Ziel bei der Forschung zur Biodiversität), NFDI4Phys (für Forschung in der Physik – auch transdizipliär) sind nur wenige Beispiele. Einen Überblick über die verschiedenen Initiativen bietet die Hauptseite der NFDI.

Das ist schon mal ziemlich gut: Fachgruppen, die sich systematisch Gedanken über ihre spezifischen Anforderungen machen und die Frage, wie diese Datenmanagementanforderungen konkret umzusetzen sind. In den einzelen NFDI werden auch Lösungen, sowohl organisatorischer Art (z. B. Leitfäden) als auch technischer Art (z. B. das ein oder andere Konversionsscript), entwickelt. Gut auch, dass es mittlerweile möglich ist bei Großprojekten Personal für Datenmanagement mit zu beantragen.

Damit hätte dieser Beitrag ausnahmsweise einmal gut enden können. Ist doch gutes Forschungsdatenmanagent zweifelsohne ein wichtiger Beitrag gegen die Reproduzierbarkeitskrise: Keine gute Metaanalyse ohne Zugriff auf Daten Dritter. Keine Möglichkeit der Reproduzierung ohne Möglichkeit des detaillierten Vergleichs mit den Resultaten Dritter. Doch leider bedeutet der relativ billige Speicher für USB-Speichermedien im Vergleich zu den Alternativen im professionellen Bereich, dass den Stapeln dieser externen Speicher im Professorenbüro das letzte Stündlein nicht geschlagen hat. Und der Umstand, dass das Personal für Datenmanagement in Großprojekten ausschließlich für die Projektdauer Beschäftigung finden wird, lässt befürchten, dass viel erworbene Kompetenz wieder verloren gehen wird – wie so häufig im akademischen Bereich.

+++

§ An dieser Stelle müsste man bei jeder Diziplin und jeder Methodik ins Detail gehen. Mehr als allgemeine Statements wird es vorerst hier nicht geben.

** Sarkasmus gefunden? Darf man behalten!

flattr this!

Kommentare (11)

  1. #1 hwied
    12. April 2022

    Jeder, der viele Daten , Dateien, Fotos verwalten muss, der überlegt sich, wie die „Sammlung“ gegliedert sein soll, damit man 10 Jahre später, wenn man schon Vieles vergessen hat, die Daten wieder findet.
    Dann hat man zusätzlich das Problem der Datenträger. Was nützen die vielen Fotos auf Disketten,wenn kein Diskettenlaufwerk zur Verfügung steht.
    Oder wenn das aktuelle Betriebssystem, das ältere Betriebssystem nicht mehr unterstützt.

    Ergänzend. Wie aktualisiert man seine Daten ?
    Es gibt zwei Möglichkeiten, das regelmäßige Update. Oder man speichert seine Dateien fest ab mit der Angabe des Datums. Dann fährt man mit einer Kopie weiter und speichert die dann wieder nach 1 Jahr fest ab und arbeitet mit der 2. Kopie weiter.
    Und dann bekommt man tatsächlich eine Unzahl von Festplatten, USB-Sticks und anderern Speichermedien. Und diese Speichermedien müssen dann auch wieder verwaltet werden.

    Herr Meesters, ein internationaler Standard für das Verwalten von Daten wäre notwendig.

  2. #2 schlappohr
    12. April 2022

    Sarkasmus gefunden? Darf man behalten!

    Die drei sich gegenseitig verklemmenden Zahnräder als Symbol für Interoperabilitat ist hoffentlich sarkastisch gemeint 🙂

    Spaß beiseite, im Endeffekt gibt es keine andere Lösung als die Daten alle paar Jahre auf die jeweils aktuelle Speichertechnologie zu kopieren. Wenn wir irgendwann dann die 50€-1.8″-100-Exabyte-SSD mit der Langzeit-Zuverlässigkeit einer Steintafel haben, ist das Problem zumindest entschärft. BluRays gingen ja schon in diese Richtung, aber leider sind sie viel zu klein.

    • #3 Christian Meesters
      12. April 2022

      Die drei sich gegenseitig verklemmenden Zahnräder als Symbol für Interoperabilitat ist hoffentlich sarkastisch gemeint

      Ich fürchte nicht – ein Klassiker, den zu übersehen mir gelungen ist.

  3. #4 hwied
    12. April 2022

    Ist schon einmal aufgefallen, dass alle 4 Symbole in die z-Ebene zeigen.
    Das sind keine Zahnräder, das sind Zahnscheiben, außenverzahnt, die sollen sich nicht drehen, die sollen sich mit der Unterlage verhaken.
    Das Datenmanagement soll sich nicht drehen, das soll sich in den Hirnen verhaken.

  4. #5 echt?
    12. April 2022

    Na ja, wenn man als Assi für die Promotion forscht, produziert man zwar einen Haufen Software, den man aber meistens nur selbst nutzt. Sitzt man auf DFG-Geld, ist nach spätestens drei Jahren Schluss. Man schreibt den Abschlussbericht, der gleichzeitig die Dissertation ist. Nach der Prüfung löscht man alles – wenn man clever ist – oder stellt alles seinem Nachfolger ins Regal. Da die DFG natürlich keinen Folgeantrag fördert, wird es dann aussortiert und wandert in den Müll. Es bleiben Aktenordner, die man noch für anderen Sachen brauchen kann.

    Warum sollte man in solch einem System Daten pflegen?

    • #6 Christian Meesters
      12. April 2022

      An dieser Stelle muss ich auf ein paar Punkte hinweisen: Zum einen ist nicht jedwede Forschungsarbeit damit verbunden, Software zu schreiben – Daten können alle möglichen Formen annehmen. Zum Anderen ist das Archivieren von Daten, die zu einer Dissertation führten, Pflicht. I.d.R. gibt es Passi, die darauf hinweisen, dass Zuwiderhandlung die Aberkennung der Dissertation zur Folge haben kann.

      Bei allem Verständnis, für die Frust am Forschungssystem hierzulande – derart fatalistische Haltung führt dann wirklich zu Nichts.

  5. #7 hwied
    13. April 2022

    Wie viele gute Ideen, Forschungsergebnisse gehen verloren, weil sie nicht zur richtigen Zeit publiziert wurden oder weil sie unter einem falschen Schlagwort abgelegt wurden.
    Auf die Dauer sollten wir uns diesen Luxus nicht mehr erlauben dürfen.
    Wenn es für die Telefonnummern ein Telefonbuch gibt, wo jeder nachschlagen darf,
    warum nicht ein Verzeichnis für alle wissenschaftlichen Arbeiten auf die man mit Berechtigungsnachweis zugreifen darf. (Vielleicht gibt es das schon ?)

    • #8 Christian Meesters
      13. April 2022

      Vielleicht gibt es das schon ?

      Jein – leider nur jein. Es gibt, immerhin, fachspezifische Publikationsdatenbanken, die – historisch bedingt – nicht immer gut zu durchsuchen sind. Das wird besser, aber Textmining ist eine Wissenschaft für sich (das darf man wörtlich nehmen!) und wird es auch noch eine Weile bleiben. Immerhin bestehen einige wissenschaftliche Zeitschriften (und sogar Fachkulturen) darauf, dass die Daten zur Publikation mit einer DOI versehen veröffentlicht werden. Es liegt noch vieles im Argen, aber die Dinge werden besser.

  6. #9 Ichbinich
    13. April 2022

    Für mich ist das ein typisches Beispiel zu “gut gedacht/schlecht gemacht”.

    Diese Prinzipien (bzw. ähnliche) führen jetzt in EU Projekten dazu, dass man einen Partner (vorzugsweise aus einem Land, was man sowieso noch für den Mix “braucht”) dazu beauftragt, irgendwelche Datenmanagement- und Aufbewahrungspläne zu definieren, Datenbanken zu erzeugen etc., die dann nach Projektende genauso Archivleichen werden, wie die Homepages, Twitter- Facebook etc. Konten, die ja aus Kommunikationssicht angeblich auch so wichtig sind. (“Kommunikationsplan”).

    Nutzen wird das niemand (und kann es auch nicht sinnvoll — Metadaten hin oder her).

    Das bekommt man mMn nur sinnvoll gelöst, wenn man wieder kontinuierliche Forschung etabliert (weg von den ganzen Einzelprojekten) und Datenexpertise aufbaut. Dazu braucht man fähige Leute an den Instituten, und sicherlich auch Incentivierung, eine vernünftige Datenablage zu betreiben.

    Mit irgendwelchen Initiativen, die bei Projekten abgefragt werden kommt man da mMn nicht weiter. Die sind nur weiterer, unnötiger Bürokratieaufwand der die Projekte verteuert und keinem was nützt.

    • #10 Christian Meesters
      13. April 2022

      Dazu braucht man fähige Leute an den Instituten, und sicherlich auch Incentivierung, eine vernünftige Datenablage zu betreiben.

      Hm, ich würde die “fähigen Leute” eher auf Stabsstellen in den Rechenzentren verorten, denn wer sonst soll alle Klientel von Arabistik bis Zahnmedizin betreuen? Das ist aber bloß ein organisatorisches Detail, ansonsten teile ich – wie gesagt – genau diese Befürchtung, die allen solchen Initiativen innewohnt, wo die Dauerfinanzierung bei den (Bundes-)Ländern bleibt, von denen einige einfach notorisch schlecht aufgestellt sind bzw. notorisch unterbelichtete Wissenschaftspolitik machen.

  7. #11 Ichbinich
    14. April 2022

    Ich würde davon ausgehen, dass es für die Klassifizierung und sinnvolle Ablage von Daten unterschiedliche Anforderungen aus den verschiedenen Fachbereichen gibt. Es ist sicher ein Unterschied, ob ich irgendwelche Auswertungen oder Literaturexzerpte der Arabistik oder Versuche/Messdaten/Analysen der Zahnmedizin speichern und wieder auffindbar machen möchte. Die gesamte dahinterliegende Datenstruktur muss dann eine andere sein.
    Ein “generelles Datenmanagement” über alle Fachbereiche zu verordnen, halte ich daher für nicht sonderlich zielführend.

    Und wie man die Daten speichern muss bzw. welche Metadaten dazugehören damit ich die später sinnvoll auswerten kann, wissen nunmal die jeweiligen Fachbereiche am besten (oder zumindest sollten sie es wissen).
    Deswegen gehört das für mich in die Fachbereiche, nicht in eine Stabsstelle. Sonst führt das nach meiner Erfahrung dazu, dass es sowieso keiner benutz weil der Nutzen fragwürdig, und das Handling zu kompliziert ist.

    Aber ja, es steht und fällt immer alles mit einer Grundfinanzierung für diese Themen, die auch gesichert und projektunabhängig ist. Sonst wird das sowieso nicht funktionieren.