Kodierung
Ziel
Im Rahmen des Teilprojekts „CODI – Automatische Kodierung offener Angaben“ innerhalb der Task Area 3 (Datengenerierung) soll ein Tool für die effiziente und gut dokumentierte Kodierung von Textinformationen aus Umfragen, insbesondere zu den Bereichen Berufe, Branchen sowie (Aus-)Bildung, Kurse und Studienfächer, entwickelt und implementiert werden. Hierfür wird das Know-how aus diesbezüglichen Forschungsaktivitäten, aus verschiedenen Anwendungskontexten und von relevanten Akteuren zusammengeführt. Ziel des Vorhabens ist es, den Forschungsdatenzentren und der wissenschaftlichen Gemeinschaft eine datenbankgestützte Software zur Unterstützung (quasi-)automatisierter Kodierungs- und Ableitungsprozesse bereitstellen zu können. Für Datenproduzierende und Datenanbietende bedeutet ein solches Angebot neue Möglichkeiten der Anreicherung ihrer Datenbestände. Für Datennutzende liegt der Mehrwert im erweiterten Forschungspotential der (zusätzlich) generierten Standardvariablen sowie ihrer Vergleichbarkeit bzw. Interoperabilität.
Hintergrund
Offene und halboffene Antwortformate sind Bestandteil nahezu aller Umfragen in den Sozial-, Verhaltens-, Bildungs- und Wirtschaftswissenschaften. In der Regel dienen sie der empirischen Operationalisierung von theoretischen Konstrukten, für die es nicht möglich oder sinnvoll ist, alle relevanten Antwortmöglichkeiten im Instrument darzustellen. Die (Nach-)Nutzbarkeit solcher Daten für quantitative Analysen ist wiederum abhängig von der – typischerweise ex-post vorgenommenen – Kodierung der Textinformationen und der anschließende Ableitung geeigneter Standardvariablen. Die manuelle Kodierung ist dabei eine zeitaufwändige, fehleranfällige und kostspielige Aufgabe angesichts von Hunderten oder gar Tausenden von Kategorien. Ein einschlägiges Beispiel sind Berufsbezeichnungen, deren analytisches Potenzial sich erst mit der Kodierung (z. B. ISCO, KldB) und der Ableitung von Status-, Klassen- oder Prestigeindikatoren (z. B. ISEI, SIOPS, EGP-Schema, CAMSIS) erschließen lässt. Insbesondere Panelstudien mit umfangreichen Bildungs- und Erwerbsbiographien stehen vor der Herausforderung, große Mengen von Texteinträgen – oftmals innerhalb kurzer Zeit – qualitativ hochwertig und konsistent kodieren zu müssen.
Vorgehen
In der ersten Projektphase stehen konzeptionelle Vorbereitungen im Vordergrund, insbesondere die Ermittlung von Bedarfen seitens der potenziellen Anwender, die Festlegung entsprechender Funktionen und eines Distributionsmodells sowie die Definition einer geeigneten Softwarearchitektur. Die zweite Projektphase dient im Wesentlichen der technischen Umsetzung des Konzepts und der grundlegenden Erprobung des Tools im breiteren Kontext. Parallel dazu sollen Qualitätsstandards und Dokumentationsmaterialien erarbeitet und abgestimmt werden. Hinzu kommen verschiedene Experimente im Rahmen einer Begleitforschung zur Verlässlichkeit und Effizienz des Tools. Nach einer erfolgreichen Testung und Weiterentwicklung des CODI-Tools ist die abschließende Projektphase der Veröffentlichung des Tools in abgestuften Open-Access-Versionen, der Einführung des Services in der wissenschaftlichen Gemeinschaft und dem Support der Nutzenden vorbehalten. Zudem gilt es, Strategien für einen dauerhaften Betrieb und eine kontinuierliche Weiterentwicklung des CODI zu entwerfen.
Das Measure „Kodierung“ ist im Arbeitsbereich FDZ des LIfBi angesiedelt.
Projektsteckbrief