FDM
Monika Jungbauer-Gans, empirische Hochschul- und Wissenschaftsforschung

Besondere Herausforderungen beim Datenmanagement von empirischen Daten in den Sozialwissenschaften

Interview mit Prof. Dr. Monika Jungbauer-Gans zu der Entwicklung von Datenmanagement in den Sozial- und Wirtschaftswissenschaften

© Ute Boeters

Zur Person

Seit 2015 ist Dr. Monika Jungbauer-Gans Professorin für empirische Hochschul- und Wissenschaftsforschung am Institut für Soziologie der LUH und wissenschaftliche Leiterin des Deutschen Zentrums für Hochschul- und Wissenschaftsforschung (DZHW). Sie ist Vorsitzende des Rats für Sozial- und Wirtschaftsdaten (RatSWD), eines unabhängigen Beirats der Bundesregierung, der sich aus gewählten Vertreterinnen und Vertretern der empirischen Sozial-, Verhaltens- und Wirtschaftsforschung und der Datenproduktion zusammensetzt. Aufgaben des Rates als Teil des Konsortiums für die Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften (KonsortSWD) sind u. a. die strategische Weiterentwicklung der Dateninfrastruktur und die Beratung von Politik und Wissenschaftsinstitutionen. KonsortSWD gehört zu den ersten neun Konsortien, die im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) im Jahr 2020 gefördert wurden.

Zur Person

Seit 2015 ist Dr. Monika Jungbauer-Gans Professorin für empirische Hochschul- und Wissenschaftsforschung am Institut für Soziologie der LUH und wissenschaftliche Leiterin des Deutschen Zentrums für Hochschul- und Wissenschaftsforschung (DZHW). Sie ist Vorsitzende des Rats für Sozial- und Wirtschaftsdaten (RatSWD), eines unabhängigen Beirats der Bundesregierung, der sich aus gewählten Vertreterinnen und Vertretern der empirischen Sozial-, Verhaltens- und Wirtschaftsforschung und der Datenproduktion zusammensetzt. Aufgaben des Rates als Teil des Konsortiums für die Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften (KonsortSWD) sind u. a. die strategische Weiterentwicklung der Dateninfrastruktur und die Beratung von Politik und Wissenschaftsinstitutionen. KonsortSWD gehört zu den ersten neun Konsortien, die im Rahmen der Nationalen Forschungsdateninfrastruktur (NFDI) im Jahr 2020 gefördert wurden.

Als Forscherin habe ich immer schon Sekundärdaten genutzt. Wir haben da ja Gott sei Dank in den Sozialwissenschaften sehr viele Datensätze: das Sozio-oekonomische Panel beispielsweise oder das Nationale Bildungspanel.

Service Team Forschungsdaten: Was uns besonders interessiert, ist, dass Sie Vorsitzende des RatSWD sind und in dem Zug sich auch im NFDI KonsortSWD engagieren. Da wollen wir jetzt fragen, was Ihre persönliche Motivation war, sich dort einzubringen?

Monika Jungbauer-Gans: Mein Engagement im RatSWD reicht schon relativ lang zurück. Ich war sechs Jahre lang gewähltes Mitglied als Vertreterin der deutschen Gesellschaft für Soziologie im RatSWD und bin seit ungefähr einem Jahr als Vertreterin der Datenproduzenten für das Deutsche Zentrum für Hochschule und Wissenschaftsforschung im RatSWD. Der Rat ist zur Hälfte aus Vertreter*innen der Wissenschaft und zur anderen Hälfte aus Vertreter*innen der Datenproduzenten zusammengesetzt. Der Ausgangspunkt für die Gründung des RatSWD war der Wunsch der Wissenschaft, Daten aus der amtlichen Statistik zu nutzen. Also solche Daten wie den Mikrozensus, in dem jedes Jahr ein Prozent der Bevölkerung befragt wird und wo viele wichtige Informationen zur Erwerbsbeteiligung, Haushaltseinkommen und weitere grundlegende Informationen gesammelt werden. Diese Mikrodaten waren bis Ende der 90er Jahre nicht für die Forschung zugänglich. Der Rat wird jeweils für drei Jahre zusammengesetzt. Er hat mehrere Aufgaben. Eine wesentliche Aufgabe ist es, die Forschungs- und Wissenschaftspolitik zu beraten. Das geschieht oft im Hintergrund. Es werden beispielsweise Gesetzentwürfe kommentiert und Gutachten geschrieben. Dies geschieht manchmal unter hohem Zeitdruck, weil die Kommentierungen dann nur für kurze Zeit erfolgen können. Im RatSWD finden sich die gebündelten Kräfte der sozial- und wirtschaftswissenschaftlichen Forschung, die darauf zielen, bestehende Hürden in Richtung Open Science/Open Data abzubauen.

Und parallel dazu werden in den einzelnen Einrichtungen sogenannte Forschungsdatenzentren eingerichtet. Das sind spezifische Einheiten, in denen die Institutionen ihre eigenen und zum Teil auch externe Daten zur Nachnutzung zur Verfügung stellen. Das muss man sich vorstellen wie ein kuratiertes Repositorium. Ein Repositorium, wo man die Daten lediglich auffindbar macht oder archiviert, das ist die erste Stufe. In einem Forschungsdatenzentrum arbeiten in der Regel Forscherinnen und Forscher, die fachspezifische Kompetenzen haben und die Nutzer*innen beraten können. Es gibt in Deutschland mittlerweile 40 Forschungsdatenzentren, die teils bei großen Forschungseinrichtungen angesiedelt sind, teils im öffentlichen Bereich, wie z.B. in der amtlichen Statistik. Mit der Gründung der Nationalen Forschungsdateninfrastruktur hat der RatSWD, bzw. hier akkreditierte Forschungsdatenzentren, den Antrag zur Einrichtung des KonsortSWD eingereicht, unter der Federführung von GESIS in Mannheim. Das DZHW ist da auch als Mitantragsteller dabei. In verschiedenen Arbeitspaketen werden Dienstleistungen für Forschungsdatenzentren erarbeitet, die das Teilen von Daten und die Bereitstellung von Daten noch weiter fördern. Eine wichtige Aufgabe bei diesen vielen Forschungsdatenzentren ist es, die Auffindbarkeit von Daten zu verbessern. Im KonsortSWD werden übergreifende Infrastrukturen entwickelt und ausdifferenziert, um den Zugriff und die Nutzbarkeit für die Forschenden deutlich zu verbessern.

Und warum ich mich selbst engagiere: Als Forscherin habe ich immer schon Sekundärdaten genutzt. Wir haben da ja, Gott sei Dank, in den Sozialwissenschaften sehr viele Datensätze: das Sozio-ökonomische Panel beispielsweise oder das Nationale Bildungspanel. Schon in meiner Promotion habe ich an einem Datensatz mitgearbeitet, der dann auch für die Nachnutzung bei GESIS zur Verfügung gestellt wurde. Die Daten des Bildungspanels können von den beteiligten Forscher*innen erst dann für Analysen genutzt werden, wenn sie auch externen Forscher*innen zur Verfügung stehen. Diese Kultur ist mir daher sehr lange schon vertraut und es ist für mich dann eher verwunderlich, dass es immer noch Bereiche gibt, wo das noch nicht so verbreitet ist und noch nicht so intensiv genutzt wird. Der Vorteil ist: Nicht jede einzelne Forscher*in muss anfangen, eine Datenerhebung aufzusetzen mit hohem Aufwand, sozusagen bei null anfangen, sondern es ist sehr gut, wenn man Daten findet, die nutzbar sind. Und für die Forschung selbst hat es natürlich auch große Bedeutung, weil Replikationen jederzeit möglich sind und dadurch insgesamt die methodische und qualitative Entwicklung der Forschung gefördert wird. Gleichzeitig wird auch ein Stück weit Missbrauch und Fälschungen vorgebeugt, da solche Verfehlungen schnell entlarvt werden könnten.

Service Team Forschungsdaten: Die Nachnutzung von Daten birgt ja ein großes Potenzial für die Forschung. Sie leiten auch Projekte, die mit Sekundärdaten arbeiten. Welche Erfahrung haben Sie mit der Nachnutzung von Daten gemacht? Haben Sie vielleicht ein besonders positives und ein besonders negatives Beispiel in Erinnerung?

Monika Jungbauer-Gans: Ja. Positiv ist natürlich, dass man doch unheimlich viel Zeit spart und dass man auch kumulativ Wissen generiert. Also nicht jeder macht seinen kleinen Survey oder seine kleine Erhebung, und dann ist nichts vergleichbar. So etwas hat eine geringe Power, weil man doch oft nicht die nötigen Fallzahlen erreicht. Ich denke, die Vorteile liegen eigentlich ziemlich auf der Hand. Negativ ist natürlich die entstandene Unübersichtlichkeit durch die derzeitige verteilte Struktur. Als Forscherin muss man sich erstmal einen Überblick über mögliche Daten verschaffen, und ganz innovative Fragestellungen sind möglicherweise mit vorhandenen Daten schwer umsetzbar. Und das ist natürlich auch so ein bisschen der wunde Punkt an dieser Stelle. Negativ ist noch im Augenblick, dass es noch nicht so richtig gut funktioniert, Reputation für die Genese von Datensätzen an die Forscher*innen zu verleihen, die diese Daten erheben. Und auch die Frage der Gewichtung, eigene Forschung wird immer noch höher gewichtet als Forschung, um gute Daten zu generieren. Da ist sicherlich auch noch etwas zu tun. Es wäre wichtig, dass man da auch entsprechend die Meriten verleiht, die für wissenschaftliche Karrieren wichtig sind oder diese Leistungen in Auswahlverfahren gezielt anerkennt. Es gibt natürlich Bereiche, wo es schwierig ist, die Daten bereitzustellen, gerade im Bereich qualitativer Sozialforschung, weil man diese Daten sehr aufwändig anonymisieren muss und durch die Anonymisierung natürlich Informationen verloren gehen. Klar würde man den Namen weglassen. Aber wenn man jetzt gerade in unserem Feld Forschung über Wissenschaftlerinnen und Wissenschaftler macht, und diese dann über Details der eigenen Arbeit und Themen erzählen, dann wären Personen anhand ihrer Publikationen leicht identifizierbar. Das sind Probleme, die dabei auftreten, aber ich denke, dass man in dem Bereich mittlerweile auch so sensibilisiert ist, dass es da auch gute Routinen gibt.

Service Team Forschungsdaten: Bleiben wir auch noch einmal beim Thema Nachnutzung. Wie stellen Sie denn in Ihren eigenen Projekten sicher, dass die erhobenen Daten dann optimal nachgenutzt werden können? Sofern das eben möglich ist.

Monika Jungbauer-Gans: Also bei den qualitativen Studien muss man sich überlegen, ob ich zum Beispiel eine Befragung von Hochschulpräsident*innen mache. Dann werde ich wahrscheinlich nicht zu dem Schluss kommen, dass es gut nachnutzbar ist. Wenngleich man da auch Formen finden kann, also, dass man dann vor Ort und in einem geschützten Raum und mit einer entsprechenden Nachprüfung der entnommenen Zitate einen Weg findet. Oft gibt es auch Möglichkeiten, den Zugang auf einer kollegialen Ebene zu regeln – vorausgesetzt das Einverständnis der Befragten wurde entsprechend formuliert. Ansonsten haben wir die Devise, dass standardisierte Daten grundsätzlich für die Nachnutzung freigegeben werden. Alles was bei uns im Haus erhoben wird, wird relativ zeitnah zum Projektende oder zum Teil schon währenddessen ins Forschungsdatenzentrum gegeben und als Scientific-Use-Files möglichst gut zugänglich gemacht. Wenn jemand differenziertere Informationen für seine Fragestellung braucht, beispielsweise welche Hochschule genau jemand besucht hat, dann bieten wir die Möglichkeit einer On-Site-Nutzung. Wir haben im DZHW auch sehr viele Daten aus früheren Jahren und Jahrzehnten. Und es ist sehr aufwendig, alle wichtigen Informationen dazu zu sammeln und in Methodenberichten zur Verfügung zu stellen, gerade auch wenn niemand mehr im Haus ist, der selbst an dem Projekt beteiligt war. Wenn jemand käme und sagen würde: Ich muss jetzt genau zu der Frage mit den Daten aus den 80ern arbeiten, würde man sich auch bemühen, diese Daten zu übergeben. Aber das Interesse liegt in erster Linie bei den aktuellen Daten. Die versuchen wir flächendeckend zur Verfügung zu stellen. Und die älteren, wenn es Kapazitäten gibt, nach und nach auch zu erschließen auf der Basis der Erfahrungen, welche Daten aktuellerer Jahrgänge häufig nachgenutzt werden.

Es gibt natürlich Bereiche, wo es schwierig ist, die Daten bereitzustellen, gerade im Bereich qualitativer Sozialforschung, weil man diese Daten sehr aufwändig anonymisieren muss und durch die Anonymisierung natürlich Informationen verloren gehen.
Wir erheben ja die Daten auch selber, sodass dann sozusagen ein ganzer Data Lifecycle, von der Genese und Erstellung der Daten, der Übermittlung ans Projekt für die Projektanalysen und parallel die Übermittlung ans Forschungsdatenzentrum für die Aufbereitung und Erschließung im Metadatenmanagementsystem erfolgt.

Service Team Forschungsdaten: Gibt es denn irgendwie eine Art standardisierten Workflow in Ihren Projekten dazu?

Monika Jungbauer-Gans: Genau, also da bemühen wir uns sehr. Zum Teil gibt es Handreichungen des RatSWD, an deren Erstellung ich auch beteiligt war, die dann auch der Anlass waren, dass die DFG das Forschungsdatenmanagement heute sehr viel stärker von den Antragsteller*innen fordert. Und im Haus selbst versuchen wir einen Workflow zu etablieren. Wir erheben ja die Daten auch selber, sodass dann sozusagen ein ganzer Data Lifecycle, von der Genese und Erstellung der Daten, der Übermittlung ans Projekt für die Projektanalysen und parallel die Übermittlung ans Forschungsdatenzentrum für die Aufbereitung und Erschließung im Metadatenmanagementsystem erfolgt. Da gibt es schon Routinen bzw. an der Fortentwicklung dieser Routinen arbeiten wir permanent. Darüber hinaus sind noch bestimmte Dinge zu leisten, wie beispielsweise einen Daten- und Methodenbericht zu schreiben, sodass man sich als Forscherin über die Details der Durchführung informieren kann. Aber im Prinzip haben wir da einen Workflow etabliert, der eine möglichst nahtlose Übergabe an das FDZ zur Vorbereitung der Nachnutzungsmöglichkeit zur Folge hat. Das haben wir in den letzten drei, vier Jahren aufgebaut.

Service Team Forschungsdaten: Generell zum Thema Forschungsdatenmanagement, Sie als Projektleiterin: Wie sorgen Sie dafür, dass ein gutes Forschungsdatenmanagement in Ihren Projekten durchgeführt wird?

Monika Jungbauer-Gans: Wir orientieren uns an der oben erwähnten Handreichung des RatSWD, die eine gute Struktur vorgibt. Wir versuchen dabei, alle Schritte soweit wie möglich zu dokumentieren. Bestimmte Kennzahlen aus der Datenerhebung zu belegen, die Feldarbeit zu dokumentieren. Man muss Ausfälle dokumentieren, insbesondere auf der Ebene der Hochschulen, auf deren Unterstützung wir oft angewiesen sind, um die Bruttostichprobe berechnen zu können. Welche Schritte dann in der Datenaufbereitung passiert sind, das wird syntaxgesteuert gemacht und damit lückenlos dokumentiert. Sodass sozusagen von der Version Null des Datensatzes ausgehend, den man aus dem Onlinebefragungstool herausholt, alles nachvollziehbar ist. Zur Information der Forschenden werden diese Informationen zusammengefasst. Damit werden sie in die Lage versetzt zu beurteilen, was genau passiert ist und wie sie die Daten bewerten können. Ist die Stichprobe repräsentativ? Gibt es bestimmte Verzerrungen durch das Stichprobendesign oder selektive Ausfälle? All das will man dann ja wissen, um die Qualität der Daten einschätzen zu können. Und das versucht man dann im Daten- und Methodenbericht entsprechend aufzuschreiben.

Service Team Forschungsdaten: Und benutzen Sie da bestimmte Software zur Dokumentation?

Monika Jungbauer-Gans: Wir haben jetzt in einem Projekt im Forschungsdatenzentrum eine Software entwickelt, mit deren Hilfe bestimmte Dinge systematisch erfasst werden und damit für alle Beteiligten zugänglich sind. Aber in diesem Bereich ist sicher noch Luft nach oben.

Service Team Forschungsdaten: Die Software, die Sie jetzt selbst entwickelt haben, soll die dann vielleicht auch irgendwann mal für andere nachnutzbar gemacht werden?

Monika Jungbauer-Gans: Denkbar wäre das natürlich. Und beim RatSWD sind wir auch gerade dabei, nochmal etwas zu entwickeln gerade für kleine Projekte. Also bei den großen Studien ist das Forschungsdatenmanagement in der Regel relativ gut etabliert mittlerweile, weil man das ja für die Berichterstattung und die Beschreibung der Daten braucht. Bei den kleinen Projekten, die an einzelnen Lehrstühlen stattfinden, wo irgendein Doktorand anfängt, irgendeine Umfrage zu machen, da gibt es wenig, was man zur Unterstützung nutzen kann. Daher erarbeiten wir gerade in einer Arbeitsgruppe des RatSWD eine Handreichung, die für solche Fälle nützlich ist und einfach zu handhaben für den Alltagsgebrauch am Lehrstuhl. In ein, zwei Jahren werden wir das fertig haben.

Service Team Forschungsdaten: Welche weitere Unterstützung im Bereich Forschungsdatenmanagement würden Sie sich generell wünschen und von wem?

Monika Jungbauer-Gans: Ja, das ist eine schwierige Frage! Also ich meine so ein Programm, wie Sie es angesprochen haben, wäre natürlich sehr hilfreich, wo man im Prinzip eine Art Checkliste hinterlegt hat und man sieht: Okay, jetzt müsste ich vielleicht dazu etwas dokumentieren oder dazu, weil im Eifer des Gefechts vergisst man vielleicht manche Dinge. Das würde eine Standardisierung zur Folge haben und auch für die Forschenden eine gute Hilfestellung sein. Man muss dabei Aufwand und Ertrag abwägen. Also wenn es eine Studie ist, wo das Nachnutzungspotenzial sehr gering ist, macht es auch wenig Sinn, sehr viel in diese Dinge zu investieren. Da ist natürlich wichtig, dass man für die Publikation der eigenen Ergebnisse das einigermaßen aufschreiben kann, aber es wird dann sicherlich nicht zehn andere Leute interessieren. Dagegen bei Dingen, die nachgenutzt werden, sollte man den Forschungsprozess möglichst gut und systematisch dokumentieren, damit die Nutzenden sich einen Überblick verschaffen können, wo die Vor- und Nachteile der Daten sind.

Ansonsten, ja die Frage wäre, wer so ein Programm machen kann? Das ist sicher etwas, was auch in einem NFDI-Kontext gut gemacht werden könnte. Aber auch die Frage, wie werden diese Informationen dann als Metadaten weiterverwendet, ist wichtig. Und wie kann man die Informationen zur eigenen Studie damit systematisch in diese Metadatenstrukturen einpflegen? In der NFDI sollten am Ende alle wissenschaftlichen Disziplinen beteiligt sein. In den verschiedenen Fachbereichen oder auch innerhalb dieser sind die Bedarfe sehr unterschiedlich. Also in den Sozial- und Wirtschaftswissenschaften, da stellen wir unsere Metadaten komplett zur Verfügung. In den Naturwissenschaften geht man sehr sensibel mit den Metadaten um, während die Forschungsdaten oft total offen freigegeben werden. In den Disziplinen, wo über Menschen oder soziale Gruppen geforscht wird, stehen immer die Fragen des Datenschutzes und des Personenbezugs im Mittelpunkt. Die Daten müssen so anonymisiert werden, dass die Nutzung nicht die Persönlichkeitsrechte verletzt. Aber auch die oft fehlende Zulässigkeit von Datenverknüpfungen ist ein Problem, das innovative Forschung behindert. In wenigen Projekten gelingt dies, wenn das individuelle Einverständnis der Befragten vorliegt. Unter bestimmten Voraussetzungen könnte man beispielsweise Daten aus Befragungen mit amtlichen Daten der Sozialversicherung verknüpfen. Wenn es eine Personenidentifikationsnummer gäbe, die genutzt werden könnte, um Registerdaten beispielsweise aus dem Schul- oder Hochschulbereich oder Sozialversicherungsdaten zur Erwerbstätigkeit zusammenführen, würde dies helfen, sehr viele Fragen zu beantworten, die man heute sehr aufwändig mit Befragungen analysiert. Man könnte sich Treuhänderstellen vorstellen, die eine Verknüpfung der Daten vornehmen und diese dann anonymisiert den Forschenden überlassen. Da gibt es noch Lücken, die sind aber auf einer anderen, übergeordneten Ebene und nicht so sehr im Bereich Forschungsdatenmanagement.

Da gibt es noch Lücken, die sind aber auf einer anderen, übergeordneten Ebene und nicht so sehr im Bereich Forschungsdatenmanagement.
Durch die NFDI wird jetzt zum ersten Mal im Prinzip diese übergreifende Struktur entwickelt, und es gibt Geld dafür, dass man eben bestimmte Dienstleistungen entwickelt.

Service Team Forschungsdaten: KonsortSWD plant ja auch im Rahmen der NFDI viel und da ist ja auch noch viel in Bewegung. Das heißt, da gibt es ja hoffentlich in den nächsten Jahren dann auch neue Unterstützungsangebote?

Monika Jungbauer-Gans: Ja, genau. Also das ist sehr interessant bei KonsortSWD. Bisher war es ja so, dass diese ganzen Dienste und Möglichkeiten der Nachnutzung immer finanziert waren über die Forschungsdatenzentren der Einrichtungen. Durch die NFDI wird jetzt zum ersten Mal im Prinzip diese übergreifende Struktur entwickelt und es gibt Geld dafür, dass man eben bestimmte Dienstleistungen entwickelt. Bisher ist es ein Nebenprodukt gewesen in einzelnen Forschungsdatenzentren. Und insofern wird es jetzt nochmal stärker systematisiert und auch die verschiedenen Disziplinen lernen hier voneinander, weil man ja in der NFDI nicht nur mit dem eigenen Konsortium zu tun hat, sondern auch mit allen anderen. Und wenn sich dann ein Lernen voneinander ergibt, dann ist es zum Vorteil aller. Wenngleich ich vorhin natürlich schon versucht habe zu erläutern, dass die Bedarfe und Empfindlichkeiten in den einzelnen Disziplinen unterschiedlich sind. Aber ich denke auch, dadurch, dass ein stärkeres Zusammenwachsen von naturwissenschaftlichen, insbesondere informationswissenschaftlichen Bereichen und den anderen Wissenschaften stattfindet - das sehe ich als eine wichtige Folge der NFDI - wird man da sicher auch nochmal zu einer anderen Qualität und Möglichkeiten der Nachnutzung kommen.

Service Team Forschungsdaten: Dann beenden wir hier an dieser Stelle das Interview. Nochmal vielen Dank!

Monika Jungbauer-Gans: Ja, gerne!