Erfahrungen mit der Datenpublikation

Zur Person

Prof. Dr. Björn Maronga erforscht in der Arbeitsgruppe Grenzschichtmeteorologie am Institut für Meteorologie und Klimatologie (IMuK) turbulente atmosphärische und ozeanische Grenzschichtströmungen. Dafür werden Simulationen, in diesem Fall sogenannte Grobstruktursimulationen (Large-Eddy Simulation, LES) durchgeführt. In der Arbeitsgruppe wurde das LES-Modell PALM entwickelt, welches auch von internationalen Forschungsgruppen verwendet wird. Daten einzelner Simulationen und den dazugehörigen Softwarecode hat Dr. Maronga in Datenrepositorien veröffentlicht.

Homepage der AG Grenzschichtmeteorologie

Homepage des PALM Modellsystem

Das Größte, was wir typischerweise ausgeben ist in der Größenordnung von zwei, drei Terabyte pro Datei.

Service Team Forschungsdaten: Starten wir direkt mit der ersten Frage. Sie befassen sich mit Luftströmungen im unteren Teil der Erdatmosphäre und schauen da zum Beispiel, wie ein Flughafengebäude die Luftströmung beeinflussen kann und wie sich das auf den Landeanflug eines Flugzeugs auswirkt. Und sie arbeiten hauptsächlich mit Simulationen und haben dafür das PALM Modellsystem entwickelt. Welche Art von Daten fallen bei Ihrer Forschungsarbeit hauptsächlich an?

Björn Maronga: Das Modell gibt NetCDF Daten aus, das sind also gerasterte Datensätze; NetCDF ist in der Atmosphärenwissenschaft eines der gängigsten Formate - Binärdaten, organisierte Daten. Die sind in der Regel bei uns vierdimensional und beinhalten die drei Raumrichtungen sowie die Zeitebene pro Ausgabegröße. Für jede Ausgabegröße bekommen wir so ein 4D-Feld. Das kann bei dem, was wir machen, ziemlich groß werden, deswegen ist unser Modell dahingehend intelligent, dass wir keine Rohdaten ausgeben.

Das heißt, Daten werden immer nur selektiv ausgegeben für einen bestimmten Analysezweck oder wir analysieren die Daten direkt während der Simulation und geben nur das Produkt aus. Das Größte, was wir typischerweise ausgeben, ist in der Größenordnung von zwei, drei Terabyte pro Datei.

Wenn man auf einen Großrechner geht, sind entsprechende Datenspeicher natürlich verfügbar, aber die sind eigentlich als temporäre Speicher gedacht, wo man dann typischerweise zehn bis 30 Terabyte zur Verfügung bekommt. Das heißt, theoretisch darf man die nicht lange liegen lassen. Damit ist das Speicherproblem also nicht gelöst.

Service Team Forschungsdaten: Das heißt, die Dateigröße ist auf jeden Fall ein Thema. Und wie wählen Sie dann aus, welche von den Daten veröffentlicht werden?

Björn Maronga: Grundsätzlich: Daten veröffentlichen wir relativ selten. Analysierte Daten werden natürlich in der Form von Grafiken publiziert. Die zugrundeliegenden Daten stellen wir manchmal zur Verfügung oder halten sie vor, wenn sie besonders wertvoll sind oder später nochmal analysiert werden sollen. Die Gesamtmenge an Daten können wir aber nicht dauerhaft speichern. Was wir machen und was wir auch dann normalerweise über die TIB publizieren, sind die Modell-Setups und der Quellcode des Modells, sodass man auf Knopfdruck die Daten neu produzieren können sollte. Aber die Rohdaten oder die nativen Daten, die wir ausgeben, die werden nicht darauf gespeichert.

Service Team Forschungsdaten: Sie hatten ja auch gerade schon gesagt, Sie veröffentlichen dann bei der TIB beziehungsweise im LUH-Datenrepositorium, und da sind auch schon einige Veröffentlichungen von Ihnen zu finden. Wie gehen Sie denn bei der Auswahl von dem Repositorium vor? Haben Sie auch in anderen Repositorien veröffentlicht? Wie ist Ihre Entscheidungsfindung?

Björn Maronga: Nein, woanders mache ich das eigentlich nicht, aber das ist reine Bequemlichkeit. Es ist bei manchen Journals tatsächlich so, dass es verlangt wird. Da muss man den Quellcode bereitstellen und mit DOI angeben (z.B. Geoscientific Model Development). Manche Journals verlangen das aber nicht, da machen wir es in der Regel auch seltener. Es gibt aber eine klare Tendenz, dass immer mehr Journals solche Datenpublikationen verlangen.

Es gibt aber eine klare Tendenz, dass immer mehr Journals solche Datenpublikationen verlangen.

Es ist wahrscheinlicher, dass hausintern jemand die Arbeit von jemand anderem fortsetzen möchte und daher auf diese Daten Zugriff benötigt.

Service Team Forschungsdaten: Konnten Sie dann, also wenn es auch zum Teil die Notwendigkeit ist, die Daten zu veröffentlichen, konnten Sie auch positive Effekte durch die Publikation der Daten feststellen?

Björn Maronga: Kann ich nicht sagen. In der Praxis ist es wahrscheinlich sehr selten, dass jemand Externes sich dann den ganzen Quellcode runterlädt, versucht zu installieren und laufen zu lassen. Es ist wahrscheinlicher, dass hausintern jemand die Arbeit von jemand anderem fortsetzen möchte und daher auf diese Daten Zugriff benötigt.

Service Team Forschungsdaten: Also keine Rückmeldung auf Ihre Datenpublikationen, vielleicht auch mal Anfragen?

Björn Maronga: Ja, ich muss überlegen, also hin und wieder werden Daten natürlich bereitgestellt, auf Anfrage. Aber das ist meistens dann in einem anderen Kontext, das läuft weniger über eine Veröffentlichung mit der Frage: "Was haben Sie da veröffentlicht? Können wir die Daten uns mal angucken?" Das läuft dann eher über andere Beziehungen, z.B. dass man sich auf der Konferenz kennengelernt hat, und dann im Gespräch auf die Idee kommt: da haben wir einen Datensatz, den könnten wir bereitstellen.

Service Team Forschungsdaten: Gibt es denn auch manchmal Vorbehalte gegenüber der Datenpublikation, vielleicht in Ihrem Projekt oder bei Kooperationspartnern?

Björn Maronga: Ja, gibt es. Wir sind da relativ entspannt. Probleme gibt es natürlich, sobald man Industriepartner dabei hat. Die verbieten das in der Regel mehr oder weniger komplett. Wir hatten einen Industriepartner - wir haben für ein bestimmtes Gebiet Simulationen gemacht, und wir durften in der Veröffentlichung nicht nennen, wo das Gebiet liegt, zum Beispiel.

Wir machen viel mit Windenergie-Unternehmen, und die Kennlinien der Rotorblätter sind dort ein Betriebsgeheimnis. Wir bekommen die dann, damit wir die ins Modell bringen und damit rechnen können; aber die dürfen natürlich hinterher nicht publiziert werden. Diesbezüglich sind die Unternehmen verständlicherweise restriktiv.

Was ich ab und zu erlebt habe, ist, dass Wissenschaftler*innen Messungen durchführen und da sehr auf ihr Erstverwertungsrecht pochen, was auch in Ordnung ist. Leider geht das teilweise in eine unschöne Richtung in dem Sinne, dass eine Co-Autorenschaft eingefordert wird, nur weil diese Daten in einer Arbeit verwendet wurden. Also grundsätzlich, wenn die Daten verwendet werden. Das geht dann über das Erstverwertungsrecht hinaus und ist keine gute wissenschaftliche Praxis. Denn im Regelfall sind diese Daten ja bereits in einer Erstverwertung publiziert worden.

Wir machen viel Modellentwicklung. Diese Entwicklungen benutzen, da alles Open Source ist, natürlich auch andere Wissenschaftler*innen. Dann besteht manchmal auch die Frage: Wie sieht es mit Erstverwertung aus, wenn jemand das benutzt, was jemand anders programmiert hat? In solchen Fällen ist die Autorenschaft nicht mehr trivial zu beantworten und es müssen einvernehmliche Lösungen gefunden werden.

Service Team Forschungsdaten: Aber eigentlich kann man das ja dann schon über die Lizenzen regeln, oder? Wenn Sie Code veröffentlichen, was nutzen Sie da in der Regel für Lizenzen?

Björn Maronga: Der Code ist grundsätzlich unter GNU-GPL v3, also es ist komplett Open Source. Was ja aber nicht heißt, dass man die Entwickler bei Publikationen übergehen sollte.

Dann besteht manchmal auch die Frage: Wie sieht es mit Erstverwertung aus, wenn jemand das benutzt, was jemand anders programmiert hat?

Wir haben modellseitig eine feste Ordnerstruktur, da gibt es typischerweise den Input-Ordner, in dem die Eingangsdaten liegen, die man verwendet hat, und einen Order für den Quellcode usw.…

Service Team Forschungsdaten: Jetzt haben wir gerade schon kurz über das Forschungsdaten-Repositorium gesprochen. Haben Sie das als relativ selbst erklärend empfunden oder fanden Sie das sehr aufwendig? Und wie haben Sie die Daten im Vorfeld dokumentiert?

Björn Maronga: Also die Beschreibung der einzugebenden Metadaten war ein bisschen diffus, wenn da so etwas wie "Autorenschaft" steht. Es gibt da ja die Felder "Autoren" und dann ein Feld "Verantwortlich" und das trifft es in der Regel nicht. In der Regel möchte ich einfach die Daten hochladen und das sind dann meinetwegen meine Daten, aber im Paper tauchen sie halt dann auf als Supplement für ein Paper von mehreren Autoren. Deshalb habe ich da immer einfach banal "et al." benutzt. Das ist eine pragmatische Lösung für mich, aber es ist wahrscheinlich nicht so, wie es gedacht ist.

Service Team Forschungsdaten: Um noch mal auf die Dokumentation einzugehen, wie gehen Sie da vor? Ist das was, was sie gleich mitdenken, wo sie das gleich alles irgendwo anders noch mit aufschreiben? Oder ist das erst so, wenn sie dann zum Publikationsteil kommen, dass sie dann denken: "Oh, jetzt muss ich hier mir eben nochmal aufschreiben, wie bin ich vorgegangen, wie habe ich die Daten erhoben, was gehört alles so mit rein?"

Björn Maronga: Da müsste ich jetzt lügen und sagen, dass wir das so machen würden. Wir haben aber modellseitig eine feste Ordnerstruktur, da gibt es typischerweise den Input-Ordner, in dem die Eingangsdaten liegen, die man verwendet hat, und einen Order für den Quellcode usw.… Durch die Hierarchie ist dies so vom Modell angelegt, wie es dann genutzt wird. Entsprechend gibt es zu jeder Simulation einen Output-Ordner, dort sind die NetCDF-Ausgabedaten gespeichert. Kleinere Dateien, z. B. Eindimensionale Ausgaben – wir machen ja nicht nur 4D – die sind so klein, dass man sie auch in eine Datenveröffentlichung mit einbeziehen kann. Diese und Analyseskripte sind bei uns dann immer Teil der Datenpublikation.

Service Team Forschungsdaten: Das heißt, sie machen das im Nachhinein, dass sie das zusammenstellen?

Björn Maronga: Typischerweise analysieren wir mittlerweile alles mit der Skriptsprache Python, und dann würde ich wahrscheinlich das Skript gemäß Abbildung benennen. Dann weiß ich mit dem Skript X kann ich die Abbildung Nr. X reproduzieren. Das sollte auch im Nachhinein selbsterklärend sein.

Service Team Forschungsdaten: Wenn Sie jetzt mal so überlegen, wie Sie bisher Ihre ganzen Daten publiziert haben, haben Sie irgendwelche Tipps für andere Forscher*innen oder Best Practices, wie Sie da vorgehen?

Björn Maronga: Es überhaupt zu machen. Ganz früher, als es diese Repositorien noch nicht gab, haben wir das auf unserer Modell-Homepage versucht zu machen. Da ist aber jeder eigenverantwortlich gewesen. Ich finde es daher ganz gut, wenn die Journals das verlangen. Und wenn man einen Standard-Weg hat, wie man dies macht, und nicht jedes Mal neu überlegen muss. Das wäre sicherlich hilfreich. Da wir im Nachgang derzeit praktisch keine Rückmeldung zu solchen Datenpublikationen bekommen, ist die Eigenmotivation dafür einigermaßen limitiert. Ich sehe den größten Nutzen wahrscheinlich darin, dass man selbst, wenn man ein altes Projekt nochmal aufgreift, schnell an die Unterlagen kommt. In meiner Doktorarbeit habe ich auch die Arbeit von einem anderen Wissenschaftler aufgegriffen, was damals über eine Festplatte mit einem Sammelsurium an Unterlagen geschah und relativ mühsam war. In dem Fall wäre es natürlich sinnvoll gewesen, wenn man wüsste: "Ach, die Beschreibung der Modellläufe ist ja publiziert!", und man kann sich diese ganzen Setups mit wenig Aufwand besorgen. Darum geht es in der Praxis am Ende. Die Daten an sich würde man typischerweise selbst immer generieren. Aus unserer Perspektive würde man meist dazu tendieren, weil das Modell sich weiterentwickelt. Es macht daher viel Sinn auch alte Ergebnisse mit der neuesten Modellversion zu reproduzieren. Dazu ist der Zugriff auf spezifische Entwicklungen und die Setups der „alten“ Simulationen von großem Interesse, aber weniger die Simulationsdaten selbst.

Service Team Forschungsdaten: Das ist dann wahrscheinlich speziell in Ihrem Bereich auch so, dass es schwierig ist, diese großen Datenmengen dauerhaft vorzuhalten und es dann einfacher ist, sie nochmal neu zu generieren.

Björn Maronga: Aber unsere Daten sind in dem Fall auch speziell, weil sie deterministisch sind. Das heißt, ich kann sie aufs Bit genau wieder produzieren. Deswegen sind sie weniger wertvoll.

Service Team Forschungsdaten: Geht es auch darum, zu differenzieren, was ist sinnvoll aufzuheben und was eigentlich nicht… wenn ich sicher bin, dass ich das reproduzieren kann?

Björn Maronga: Man hat natürlich den finanziellen Gegenwert von der Simulation. Den spüren wir im Wissenschaftsbetrieb nicht direkt, weil wir die Rechenzeit auf den Großrechnern zwar beantragen – aber nicht abrechnen müssen. Aber natürlich verursacht jede Simulation Hardware- und Stromkosten. Eine sehr große Simulation kann somit durchaus einen Gegenwert im fünf- oder sechsstelligen Eurobereich haben. Vor dem Hintergrund ist es natürlich ein Wertverlust, wenn Daten nicht aufgehoben werden können. In unserem Alltag ist das Bewusstsein dafür aber nicht so sehr vorhanden.

Service Team Forschungsdaten: Das ist wirklich auch noch ein guter Hinweis, dass Sie sagen, Sie haben für Ihre Dissertation auch andere Daten nachgenutzt, und dass es einfach schwierig ist, wenn da nur die Rohdaten vorhanden sind, aber keinerlei Erläuterungen dazu.

Björn Maronga: Oder im schlimmsten Fall ist gar nichts mehr da, weil Leute einfach gehen und nicht ordnungsgemäß ihre Sachen übergeben.

Service Team Forschungsdaten: Ja, vielleicht ist das der größte Mehrwert, den die Datenpublikation bietet, dass die Forschenden gezwungen sind, das Ganze so weit zu dokumentieren, dass man damit etwas anfangen und dass jeder darauf zugreifen kann.

Björn Maronga: Dann müsste man das vielleicht ein bisschen erweitern und nicht nur bei Journals einfordern, sondern seitens des Dienstherrn, also der jeweiligen Institution, einfordern. Denn das wird im Moment, denke ich, nicht oder nur selten gemacht. Oft fehlt es auch nur an Bewusstsein. Wenn an keiner Stelle darauf verwiesen wird, dass die Daten in einer geeigneten Form in einem Repository zu veröffentlichen sind, denkt man vermutlich auch nicht daran.

Service Team Forschungsdaten: Ich finde das Fazit ganz schön, dass es besser ist, die Daten zu publizieren, auch wenn es erst mal nur einem selbst was bringt. Das ist ja trotzdem auch ein Gewinn, zumindest für einen selbst oder für die ganze Arbeitsgruppe, wenn man sagt: "Ich kann ein altes Projekt nochmal aufgreifen. Und ich kann damit weiterarbeiten oder jemand anders." Und es würde sich natürlich auch durch ein solides Forschungsdatenmanagement lösen lassen, dass die Dokumentation intern schon so erfolgt ist, dass, selbst wenn die Person seit zwei Jahren nicht mehr da ist, man noch mal nachschauen kann, was damals eigentlich gemacht wurde. Vielen Dank!

Oft fehlt es auch nur an Bewusstsein. Wenn an keiner Stelle darauf verwiesen wird, dass die Daten in einer geeigneten Form in einem Repository zu veröffentlichen sind, denkt man vermutlich auch nicht daran.