Kurz erklärt
Empfehlungen

Empfehlungen zum Umgang mit Forschungsdaten

  • Rechtliches

    Bevor Sie wissenschaftliche Daten erheben, verarbeiten und veröffentlichen, sollten Sie die rechtlichen Rahmenbedingungen und Vorgaben, für den Umgang mit Forschungsdaten prüfen. Personenbezogene Daten etwa unterliegen Datenschutzgesetzen. Wenn Sie Daten verarbeiten, die von anderen Personen oder Institutionen erhoben wurden, prüfen Sie im Vorfeld, ob deren Nutzung erlaubt ist. Klären Sie außerdem mit Ihrem Arbeitgeber, welche Verwertungsrechte Sie an den von Ihnen erhobenen Daten haben. Weitere Informationen finden Sie in unserem Merkblatt FAQs zu rechtlichen Aspekten im Umgang mit Forschungsdaten.

    Gesetze

    Weiterführende Links

    Informationen auf forschungsdaten.info

  • Dokumentation

    Für die strukturierte Dokumentation und Beschreibung von Forschungsdaten verwendet man Metadaten. Sie bestehen aus deskriptiven (beschreibenden) und technischen Informationen.

    Forschungsdaten sollten immer zusammen mit ihren Metadaten abgelegt werden. In einem öffentlichen Repositorium geschieht dies i.d.R. automatisch und verpflichtend. Vor der Veröffentlichung können die Metadaten in verschiedenen Formaten gespeichert werden, z.B.:

    • in einer Datenbank.
    • in Tabellen (z.B. Excel).
    • in einer Readme-Datei (Text, PDF).
    • in einer strukturierten XML-Datei.
    • in der Daten-Datei enthalten (z.B. im fileheader).

    Durch eine gute Dokumentation werden die Daten

    • besser auffindbar,
    • maschinell auffindbar, z. B. durch Suchmaschinen,
    • besser oder überhaupt erst nachnutzbar,
    • zitierfähig und damit dem Ersteller der Daten zuordnenbar,
    • wertvoller für die Wissenschaft, da Inhalte, Qualität und Bearbeitungsstand dann erst einzuschätzen sind.

    Grundlegende deskriptive Metadaten

    • Titel
    • Ersteller (hauptverantwortlich Forschende)
    • Erhebungsdatum (auch Versionen)
    • Format (ggf. benötigte Software)
    • Fachgebiet
    • Eindeutiger Identifier
    • Beschreibung der Daten / Abstract
    • Erfassung der Daten (räumlich / zeitlich)
    • Organisation
    • Rechte / Lizenzbestimmungen
    • Beziehung zu anderen Objekten (Daten, Texte...)

    Weiterführende Links

    Informationen auf forschungsdaten.info

    Allgemeine Metadatenschemata:

  • Dateibenennung und Ordnerstruktur

    Ordner- und Dateinamen sollten aus Elementen bestehen, die eine schnelle Einordnung des Inhalts erlauben. Sie können beispielsweise Auskunft über das Erstellungsdatum, die Dateiversion und die bearbeitende Person der Forschungsdaten geben. Diese Elemente ordnet man in einem einheitlichen Format an. Achten Sie darauf, dass Benennungskonventionen im Vorfeld vereinbart, schriftlich fixiert und während des Forschungsprozesses eingehalten werden.

    Je mehr Informationen Dateinamen enthalten desto länger können sie werden. Da einige Programme sehr lange Dateinamen nicht verarbeiten können, legt man die Teile der Information, die für alle Dateien in einem Ordner gleich sind, stattdessen im Ordnernamen ab.

    Tipps für die Dateibenennung

    • Datumsangaben im Format JJMMTT, also z.B. 150828 für den 28. August 2015.
    • Personenangaben verkürzen, z.B. auf Initialen.
    • Nutzen Sie nur folgende Zeichen für Dateinamen: A-Z a-z 0-9 : (Doppelpunkt) .(Punkt) - (Bindestrich) _ (Unterstrich) / (Schrägstrich)
    • Verwenden Sie keine Umlaute, Leerzeichen oder Sonderzeichen, denn viele Programme interpretieren dies Zeichen unterschiedlich oder stellen sie nicht korrekt dar.
  • Speicherorte und Backup

    Der Verlust Ihrer unter erheblichem Kosten-, Zeit- und Arbeitsaufwand erhobenen Daten und der darauf aufbauenden Analysen kann erhebliche negative Folgen für Ihre Forschung haben. Wer Forschungsdaten digital erzeugt und auswertet, muss daher sicherstellen, dass nichts verloren geht und die Ergebnisse für lange Zeit sicher aufbewahrt werden. Folgende Grundsätze sollten Sie beachten:

    • Regelmäßige Datensicherung der zum Forschungsprojekt gehörenden Dateien auf geeignete Medien oder Nutzung von Backup-Diensten.

    • Die Sicherungsintervalle bestimmen die im Fehlerfall mögliche Verlustquote - je häufiger Sie speichern, desto geringer ist der mögliche Datenverlust.

    • Jedes Backup ist nur so gut, wie die Datenwiederherstellung: Testen Sie die Wiederherstellung auf ihren Computer, bevor ein Notfall eintritt.

    Backup & Restore am LUIS

    Nutzen Sie für die Datenablage nach Möglichkeit Institutsserver, deren Daten regelmäßig vom LUIS gesichert werden. Mit dem Dienst Backup&Restore erstellen Institute und zentrale Einrichtungen Sicherungskopien von Serverdaten, die sich regelmäßig ändern oder die zu aktuellen Projekten gehören. Der Dienst holt die Kopien automatisch ins LUIS, das die Daten für einen begrenzten Zeitraum auf seinen Speichersystemen vorhält.

    Alternativ steht der "Sync & Share"-Dienst Seafile als Teil des zentralen Dateiservices bereit, der automatisch ausgewählte Daten auf einen LUIS-Server kopiert. Zusätzlich lassen sich diese Daten damit auch auf weitere Geräte verteilen.

    Backup-Programme

    Die Daten auf ihrem PC-Arbeitsplatz lassen sich mit den eingebauten Mechanismen Ihres Betriebssystems (ab Windows Vista etwa Backup&Restore) oder mit Spezial-Software auf externe Medien (USB-Speicher, DVD, Bänder) sichern. Eine Liste dieser Programme finden Sie bei Wikipedia.

    Weiterführende Links

  • Datensicherheit

    Überlegen Sie sorgfältig, wo und wie Sie Ihre Daten ablegen und sichern. Arbeiten Sie mit schutzwürdigen Daten, sollen Sie den Zugang zu diesen auf den unmittelbaren Mitarbeiterkreis einschränken. Üblicherweise regelt man diese Einschränkungen über die Lese- und Schreibberechtigungen sowie Freigaberechte auf Institutsservern oder bei Dateidiensten wie das vom LUIS betriebene Seafile. Kostenlose Cloud-Speicherdienste und unverschlüsselte USB-Medien sind kein geeigneter Platz für schützenswerte Daten. Personenbezogene Forschungsdaten müssen Sie grundsätzlich verschlüsselt speichern (Datenschutz-Gebot). Sie können ganze Dateisysteme von Massenspeicher wie Festplatten und tragbaren USB-Medien verschlüsseln, so dass Unbefugte sie nicht auslesen können (Datenträgerverschlüsselung). Die meisten Betriebssysteme wie macOS, Windows und Linux bringen dazu bereits Software mit (FileFault, Bitlocker, dm-crypt). Für Windows empfiehlt sich zudem das quelloffene VeraCrypt. Alternativ können Sie auch einzelne Ordner und Dateien direkt verschlüsseln (Dateiverschlüsselung). Das gelingt etwa mit dem Archivmanager 7-Zip, einigen Dateimanagern oder Tools wie GPG oder OpenSSL.

    Weitere Informationen

  • Dateiformate

    Das Management von Daten beginnt bereits mit ihrer Erhebung. Daten werden mit vielfältigen Methoden gesammelt und erzeugt, z.B. durch Messungen, Simulationen, Umfragen, Textanalysen. Sie liegen als Tabellen, CAD-Daten, Bild- und Rasterdaten, Transkripte, Programmcodes und vieles mehr vor und können in unterschiedlichen Dateiformaten gespeichert werden. Von der gewählten Methodik, der Art der Daten und ihren Dateiformaten hängt ab, ob und wie sie automatisch weiterverarbeitet werden können, wie kompatibel sie mit anderen Hard- und Softwaresystemen sind und ob sie langfristig lesbar bleiben.

    Die Art Ihrer Daten bestimmt ihre Form. So lassen sich beispielsweise Umfragedaten besser tabellarisch als in Form eines Textes strukturiert ablegen. Komplexe Datenerhebungen dürften besser in einer Datenbank aufgehoben sein als in einem Excel-Sheet.

    Wichtig ist die Wahl des Dateiformats. Einige Geräte und viele Anwendungsprogramme speichern Daten in einem Hersteller-spezifischen Format, das mit anderer Software selten lesbar ist. Prüfen Sie die Möglichkeit die Daten in ein offenes Format abzuspeichern oder zu konvertieren, um den Datenaustausch zu erleichtern.

    Empfehlungen zu Datenformaten finden Sie unter anderem auf der Homepage des RADAR-Projekts

  • Datenpublikation

    Viele Förderer, Universitäten und Wissenschaftsorganisationen verlangen oder empfehlen, Forschungsdaten frei zugänglich zu machen. Dadurch sind einerseits die publizierten Auswertungen besser überprüfbar. Andererseits wird eine Nachnutzung durch Dritte ermöglicht.

    In der Regel ist es jedoch weder möglich noch sinnvoll, sämtliche im Forschungsprozess entstandene Daten zu publizieren. Ein wichtiger Schritt ist daher die Auswahl der publikationswürdigen Daten, die die/der Forschende selbst trifft. Wir empfehlen die Publikation aller Daten, die mindestens eines der folgenden Kriterien erfüllen:

    • Einzigartigkeit: es sind keine Dubletten der Daten bereits an anderer Stelle veröffentlicht

    • Stark eingeschränkte Reproduzierbarkeit: die Daten könnten nicht oder nur unter sehr großem Aufwand erneut generiert werden

    • hohe fachliche Relevanz: Die Daten sind für Ihre Fachcommunity oder sogar fachübergreifend von besonderem Interesse

    • Grundlage von Textpublikationen: Sie haben Bücher oder Artikel veröffentlicht, die auf der Auswertung dieser Daten basieren

    Damit Ihre Daten auch tatsächlich nachgenutzt werden können, beachten Sie bitte Folgendes:

    • Adäquate Dokumentation: Stellen Sie ausreichend beschreibenden Metadaten bereit, damit der Datensatz verständlich ist gezielt in einer Datenbank (z.B. eines Repositoriums) gesucht werden kann.

    • Lesbarkeit: Speichern Sie die Daten nach Möglichkeit in offenen, weit verbreiteten Formaten, die plattformunabhängig geöffnet werden können und keine spezielle (evtl. nicht dauerhaft verfügbare) Hard- und Software benötigt.

    • Rechte: Prüfen Sie, ob ggf. Rechte Dritter einer Veröffentlichung entgegenstehen (z.B. Urheber- oder Persönlichkeitsrechte). Falls das der Fall ist, versuchen Sie, sich alle notwendigen Rechte von den Betroffenen schriftlich einräumen zu lassen. Versehen Sie Ihre Daten mit einer offenen Lizenz (z.B. CC0), damit sie von jedermann uneingeschränkt nachgenutzt werden dürfen.

  • Datenrepositorien

    Die Archivierung und Publikation von Daten in einem speziellen Datenrepositorium ist eine Möglichkeit um Daten langfristig zugänglich und zitierfähig zu machen. Die meisten Repositorien haben spezielle Anforderungen an die zu hostenden Daten, die bestenfalls bereits vor der Datenerstellung bedacht und berücksichtigt werden sollten. Üblicherweise sind das einige oder alle der folgenden Anforderungen:

    • Verwendung offener Datenformate, die die langfristige Archivierung und den Zugriff erleichtern
    • Pflicht-Metadaten zur Dokumentation, um Auffindbarkeit und Nutzbarkeit zu erhöhen
    • Versicherung des Datengebers, dass Archivierung und Zugriff auf die Daten nicht gegen das Urheberrecht oder den Datenschutz verstoßen.
    • Nutzung von Lizenzen oder Vereinbarungen, welche die Nachnutzung erleichtern (z.B. Open Access, Open Access nach einer Embargofrist)

    Worauf Sie bei der Wahl eines Repositoriums achten sollten

    • Garantierte Datenaufbewahrung für mindestens 10 Jahre

    • Bezahlbare Gebühren für die langfristige Datenaufbewahrung

    • Erfassung von Metadaten zu jedem Datensatz, die mindestens den Standards DataCite oder Dublin Core entsprechen

    • Vergibt für jeden Datensatz eindeutige, langfristig gültige Identifier, wie z.B. einen DOI

    Repositorien

    re3data.org
    Fachübergreifende Suche nach fachspezifischen Repositorien

    RIsources
    Portal der DFG für Forschungsinfrastrukturen

    Leibniz Universität Hannover

    RADAR
    Generisches Daten-Repositorium betrieben von FIZ Karlsruhe und TIB

    ZENODO
    Generisches Repositorium, finanziert von der Europäischen Union und betrieben am Cern.

  • Lizenzen

    Bevor Daten mit Dritten geteilt werden, sollten die Voraussetzungen für die Nachnutzung geklärt werden. Forschern an der LUH wird empfohlen, offene Lizenzen für Datenpublikationen zu verwenden. Mit der Vergabe einer offenen Lizenz räumt der Urheber anderen Personen das Recht ein, die Daten uneingeschränkt zu verwenden, zu verändern und weiterzuverbreiten. Es gibt auch Lizenzen, die diese Rechte einschränken. Diese gelten dann aber nicht mehr als "offen". Die Vergabe einer standardisierten Lizenz ist in der Regel eine Voraussetzung für die Publikation in Repositorien.

    Lizenzen

  • Datenmanagementplan

    Die Planungen zum Umgang mit Forschungsdaten sollten in einem Datenmanagementplan (DMP) festgehalten werden. Inhalt eines DMP ist:

    • Überblick über das Projekt
    • Welche Daten werden in meinem Projekt verwendet? (Selber generierte Daten, bereits existierende Daten)
    • Wie werden die Daten verwaltet? (Dateinamen, Speicherort (intern / extern), Backups)
    • Wie werden die Daten aufbereitet?
    • Welche rechtlichen Aspekte müssen beachtet werden? (Datenschutz, Lizenzen, wie verbreite ich meine Daten?)
    • Datenaustausch und Publikation
    • Wer macht was mit den Daten (Rollen und Verantwortlichkeiten)?
    • Welche Ressourcen stehen mir zur Verfügung? (Geld, Material, Personal)

    Generell sollten Sie für den projektinternen Gebrauch die Datenmanagementpläne möglichst ausführlich formulieren. Weicht der Forschungsprozess von der ursprünglichen Planung ab oder sollen bestimmte Aspekte konkretisiert werden, wird der Datenmanagementplan angepasst.

    Online Tools für die Erstellung von DMP

    DMPonline
    freies, englischsprachiges Online-Tool für die Erstellung von Datenmanagementplänen des Digital Curation Centre (DCC)

    RDMO
    DMP-Tool für die institutionelle Nutzung mit eigenen Instanzen (in der Entwicklung)

    Weiterführende Informationen

    LUH-Template zum Erstellen von Datenmanagementplänen

    Forschungsdaten.info

    How to Develop a Data Management and Sharing Plan, Sarah Jones (DCC)

    Checkliste zum Data Management Plan des DCC