Kodierung

 

Hintergrund

Offene und halboffene Antwortformate sind Bestandteil nahezu aller Umfragen in den Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften. In der Regel dienen sie der empirischen Operationalisierung von theoretischen Konstrukten, für die es nicht möglich ist, alle relevanten Antwortmöglichkeiten im Instrument angemessen darzustellen. Die (Nach-)Nutzbarkeit solcher Daten für quantitative Analysen hängt weitgehend von der – typischerweise im Nachhinein vorgenommenen – Kodierung der Textinformationen und der anschließende Ableitung von Standardvariablen ab. Die manuelle Kodierung ist dabei eine zeitaufwändige, fehleranfällige und kostspielige Aufgabe angesichts von Hunderten oder gar Tausenden von Kategorien. Ein Beispiel sind Berufsinformationen (z. B. Berufs- und Tätigkeitsbezeichnungen), deren Bereitstellung in Form von einschlägigen Klassifikationen (z. B. ISCO, KldB) und abgeleiteten Status-, Klassen- oder Prestigeindikatoren (z. B. ISEI, SIOPS, EGP-Schema, CAMSIS) das analytische Potenzial von Forschungsdaten signifikant erhöht. Insbesondere Panelstudien mit umfangreichen Bildungs- und Erwerbsbiographien stehen vor der Herausforderung, große Mengen von Texteinträgen innerhalb von kurzer Zeit in einer qualitativ hochwertigen und konsistenten Art und Weise kodieren zu müssen. Teilweise verfügen die betreffenden Institutionen über speziell entwickelte technische Lösungen. In anderen Fällen werden die Prozesse vollständig an kommerzielle Anbieter ausgelagert. Gerade für kleinere Studien sind beide Strategien aufgrund fehlender Ressourcen oftmals nicht umsetzbar. Ein zusätzliches Defizit betrifft die unzureichende Dokumentation der angewandten Kodierungs- und Ableitungsprozesse, welche zu Lasten der Transparenz von Forschung und der Vergleichbarkeit von Analysebefunden geht.

 

Ziel

Im Rahmen des Teilprojekts „Kodierung“ innerhalb der Task Area 3 (Datengenerierung) soll eine Infrastruktur für die effiziente Kodierung von Text- bzw. offenen Informationen aus Umfragen, insbesondere zu den Bereichen Beruf, Branchen sowie (Aus-)Bildung, Kurse und Studienfächer, aufgebaut werden. Über die Einrichtung eines Kompetenzzentrums wird das Know-how aus der diesbezüglichen Forschung, aus verschiedenen Anwendungskontexten und von relevanten Akteuren zusammengeführt. Ziel ist es, eine datenbankgestützte Software zur Unterstützung (quasi-)automatisierter Kodierungs- und Ableitungsprozesse zu entwickeln und bereitzustellen, so dass geeignete Standardvariablen kosten- und zeiteffizient erzeugt werden können. Für Datenproduzierende und -anbietende bedeutet ein solches Angebot neue Möglichkeiten der Anreicherung ihrer Datenbestände. Für Datennutzende liegt der Mehrwert im erweiterten Forschungspotential der (zusätzlichen) Standardvariablen und ihrer hohen Vergleichbarkeit bzw. Interoperabilität. Diesem Anspruch dient auch die enge Kooperation des Vorhabens mit dem von der GESIS verantworteten Teilprojekt zur Standardisierung und Harmonisierung von Variablen (TA.3-M.1).

 

Das Measure „Kodierung“ ist im Arbeitsbereich FDZ des LIfBi angesiedelt.

 

Antragsteller
Prof. Dr. Christian Aßmann und Dr. Daniel Fuß

 

Projektteam

Dr. Daniel Fuß (Leitung) und Malte Schwedes (Mitarbeiter), Max Pause (Mitarbeiter)

 

Projektlaufzeit

01.01.2021 - 31.12.2023

Profile Avatar

Dr.  Daniel Fuß

daniel.fuss@lifbi.de

+49 951 863-3492

Team