Semi-Automatische Kategorisierung von sozialwissenschaftlichen Datensätzen.

Status


Finished master thesis

Student


  • Martina Bortlisch

Formalia


Targeted audience
  • AI Master

Task description


Sozialwissenschaftliche Daten (d.h. sehr häufig Daten aus Bevölkerungsumfragen) werden durch die Primärforscher in Repositorien gespeichert, um von anderen Forschern (sogen. Sekundärnutzern) für eigene Forschungsprojekte verwendet zu werden. Die Kataloge der Repositorien müssen die Nutzer bei der Suche nach existierenden Forschungsdaten unterstützen. Dafür werden die Datensätze nach Inhalten kategorisiert. Da viele sozialwissenschaftliche Studien mehrere Themen erfassen, ist in der Regel eine Zuordnung zu mehreren Kategorien notwendig. Bislang wird die Kategorisierung von Datensätzen manuell durchgeführt. Grundlage dafür ist die Sichtung der Studienmaterialen (Fragebögen, Methodenberichte, Studienbeschreibungen) durch qualifiziertes Personal (vergleichbar den Fachreferenten in wissenschaftlichen Bibliotheken). Dieser Prozess soll durch eine semi-automatische Kategorisierung der Datensätze technisch unterstützt werden, um die Kategorisierung in den Repositorien effizienter zu gestalten. Für die semiautomatische Kategorisierung von sozialwissenschaftlichen Datensätzen ist vorgegeben:

  • Ein Kategorienschema, in welches die zu kategorisierenden Daten eingeordnet werden müssen (d.h. die CESSDA Topic Classification).
  • Eine Lernstichprobe, d. h. eine Menge von Daten, die bezüglich des vorgegebenen Kategorienschemas bereits klassifiziert sind.

Ein (automatischer) Klassifikator lernt anhand des Schemas und der Lernstichprobe, wie neue (noch nicht klassifizierte) Dokumente in das Schema einzuordnen sind.

Der Ansatz [Klas:99] konkateniert alle Dokumente aus der Lernstichprobe, die einer Klasse zugeordnet wurden, zu einem Gesamtdokument für diese Klasse. Die so entstehenden Megadokumente werden indexiert. Ein zu klassifizierendes Dokument wird wiederum als Anfrage an die so erstellte Datenbank interpretiert; das Megadokument, welches die größte Ähnlichkeit zu dem Anfragedokument ausweist, wird zur Klassifikationsentscheidung herangezogen.

Aufgabe dieser Abschlussarbeit ist es, den Ansatz für in der GESIS vorhandene Forschungsdaten zu adaptieren. Konkret soll zunächst der State-of-the-Art aufgearbeitet werden, also welche Verfahren sich für die Klassifikation von Publikationen und Forschungsdaten als erfolgreich herausgestellt haben und welche Ansätze diese verfolgen. Anschließend soll der obige Ansatz bzw. die Evaluationsumgebung mit aktuellen Werkzeugen neu implementiert werden und anhand der GESIS Kollektion gegen bestehende Verfahren als Baseline gemessen werden. Zudem soll ein prototypisches Portal auf Basis von Vaadin implementiert werden, um Kuratoren bei der semi-automatischen Klassifikation von Forschungsdaten zu unterstützen.

Literature