Regelbasierte Google Suche nach historischen Dokumenten

Status


Finished bachelor thesis

Student


  • Emmanuel Nwabueze

Related projects


  • RSNSR
    Rule-Based Search in Text Data Bases with Nonstandard Spelling

Finished


2011 - 07

Formalia


Preconditions
  • JavaScript Kenntnisse (notwendig)
  • Java Kenntnisse (notwendig)

Task description


Die deutsche Rechtschreibung wurde erst im Jahre 1901 vereinheitlicht. Durch die Abweichung von der aktuellen Standardschreibung sind historische Dokumente, oft nur schwer zu finden. Im Rahmen des Projektes RSNSR wird eine Suchmaschine zur Unterstützung der Suche in historischen Dokumenten entwickelt. Hierbei werden für den Suchbegriff zunächst die Flexionsformen in der Wortschatz-Datenbank nachgeschlagen. Diese werden anschließend mit automatisch generierten Regeln auf die entsprechenden Schreibvarianten abgebildet und die Suchanfrage entsprechend erweitert. Auf diese Weise wird z. B. aus dem Suchbegriff "Tür" zunächst die Flexionsform "Türen" gebildet. Daraus wird wiederum die historische Form "Thueren" generiert.

In dieser Arbeit soll nun gezeigt werden, das sich der Ansatz auch für die Google-Buchsuche anwenden lässt.

Konkret sollen in der Abschlussarbeit

  • Literatur aufgearbeitet werden,
  • das existierende Werkzeug in eine Webseite integriert werden,
  • eine Google-Buchsuche für die Varianten in die Webseite integriert und
  • die Ergebnisse evaluiert werden.

Da sowohl die Schreibweisen als auch die Regeln sind zeit- und ortsabhängig sind, sollen dabei je nach Zeit und Sprache unterschiedliche Regelsätze eingesetzt werden

Literature