RSNSR
Regelbasierte Suche in Textdatenbanken mit nichtstandardisierter Rechtschreibung
Allgemeine Informationen
- DFG
- DFG: FU 205/18-1, FU 205/18-3
- UDE: 15311525 (ka00043e, ka00043g)
Beschreibung
Im Kontext eines Digitalisierungsprojekts zur Nietzsche-Rezeption aus den Jahren 1865 - 1945, das seit mehreren Jahren in Duisburg in Zusammenarbeit mit dem Nietzsche-Kolleg in Weimar verfolgt wird, beschäftigt sich das RSNSR-Projekt mit der Erforschung und Entwicklung eines linguistischen Regelsystems, einer Transformationsmethodik und zeitabhängiger Filter zur Unterstützung der Suche in Textdokumenten in nichtstandardisierter Rechtschreibung.
Es wurde bereits eine Suchmaschine erstellt, welche es durch einen neu entwickelten phonetischen Regelsatz ermöglicht, auf Texten, die mehrere hundert Jahre vor der Rechtschreibvereinheitlichung des Jahres 1901 verfasst wurden, eine Suche mittels orthographisch genormter Schlagwörter durchzuführen. Durch Einführung eines Abstandsbegriffs sind verschiedene Stufen der Ähnlichkeit realisiert. Die Suchmaschine ist in das online-verfügbare HTML-basierte Nietzsche-Archiv integriert.
Im Einzelnen verfolgt unser Projekt RSNSR die folgenden Ziele:
- Entwicklung von Zeit- und Ortfiltern für phonetische Regeln, Revision der Regeln aus der Textbasis und aus statistischen Analysen, Vergleich des Wörterbuch- mit dem regelbasierten Ansatz, Nutzung eines Kontrollwörterbuchs gegen Homonymhäufung.
- Entwicklung eines neuen adäquaten Abstandsbegriffs auf der Basis eines modifizierten graphematischen und phonetischen Levenshtein-Ähnlichkeitsmaßes, Berücksichtigung typischer Erfassungsfehler, Entwicklung von Unschärfeskalen.
- Integration der Suchmaschinen in das Nietzsche Projekt und in andere Systeme, Entwicklung von Regelsätzen und Erweiterung der Suchmaschine auf (früh-)neuhochdeutsche Archive.
Publikationen
- Andrea Ernst-Gerlach (2013).
- Retrievalmethoden für historische Korpora mit nicht standardisierten Schreibweisen. PhD thesis
- Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian (2011).
- Entwicklung einer Benutzeroberfläche zur interaktiven Regelgenerierung für die Suche in historischen Dokumenten. In: Proc. of the 'Internationales Symposium für Informationswissenschaft', Hildesheim, Germany
- Andrea Ernst-Gerlach, Dennis Korbar, Ara Awakian (2011).
- Interactive Rule-Generation for Searching in Historic Documents. In: Proc. of the 'Conference on New Methods in Historical Corpora', Manchester, UK
- Ara Awakian (2010).
- Development of a User Interface for Interactive Rule Generation. Masterthesis
- Andrea Ernst-Gerlach; Norbert Fuhr (2010).
- Semiautomatische Konstruktion von Trainingsdaten für historische Dokumente. In: Proc. of the ''Information Retrieval 2010'' Workshop at LWA 2010, Kassel, Germany
- Andrea Ernst-Gerlach; Norbert Fuhr (2010).
- Advanced Training Set Construction for Retrieval in Historic Documents. In Sixth Asia Information Retrieval Societies Conf. (AIRS 2010)
- Dennis Korbar (2010).
- Visualisierung von Regelstrukturen und -Modifikationsmöglichkeiten für die Suche in Texten mit nicht-standardisierter Rechtschreibung. Diplomarbeit
- Thomas Pilz; Andrea Ernst-Gerlach; Sebastian Kempken; Paul Rayson; Dawn Archer (2008).
- The Identification of Spelling Variants in English and German Historical Texts: Manual or Automatic?. Literary and Linguistic Computing 23(1)
- Andrea Ernst-Gerlach; Norbert Fuhr (2007).
- Retrieval in text collections with historic spelling using linguistic and spelling variants. In ACM/IEEE Joint Conference on Digital Libraries, JCDL 2007, Vancouver, BC, Canada, June 18-23, 2007, Proceedings
- Dawn Archer; Andrea Ernst-Gerlach; Sebastian Kempken; Thomas Pilz; Paul Rayson (2006).
- The identification of spelling variants in English and German historical texts: manual or automatic?. In DIGITAL HUMANITIES 2006
- Andrea Ernst-Gerlach; Norbert Fuhr (2006).
- Generating Search Term Variants for Text Collections with Historic Spellings. In 28th European Conference on Information Retrieval Research (ECIR 2006)
- Thomas Pilz; Wolfram Luther; Ulrich Ammon; Norbert Fuhr (2005).
- Rule-based search in text databases with non standard orthography. In Proceedings ACH/ALLC 2005, Victoria, 15 - 18 Jun 2005
Vorträge
- Andrea Ernst-Gerlach (2007).
- Retrieval in Text Collections with Historic Spelling Using Linguistic and Spelling Variants. Talk at the ACM IEEE Joint Conference on Digital libraries, Vancouver, Canada
- Andrea Ernst-Gerlach; Norbert Fuhr (2006).
- Generating Search Term Variants for Text Collections with Historic Spelling. Talk at the European Conference on Information Retrieval, London, U.K.
- Andrea Ernst-Gerlach; Norbert Fuhr (2006).
- Retrieval in Text Collections with Historic Spelling. Talk at the Dagstuhl Seminar 'Digital Historical Corpora', Wadern, Germany
- Andrea Ernst-Gerlach; Thomas Pilz (2006).
- Search methods for documents in non-standard spelling. Talk at the Workshop on Historical Text Mining, Lancaster, U.K.
- Andrea Ernst-Gerlach; Thomas Pilz (2005).
- RSNSR: Rule based search in text databases with nonstandard orthography. Talk at Lancaster University, Lancaster, U.K.
- Andrea Ernst-Gerlach; Thomas Pilz (2005).
- RSNSR: Rule based search in text databases with nonstandard orthography. Talk at the University of Central Lancashire, Preston, U.K
- Andrea Ernst-Gerlach; Norbert Fuhr (2010).
- Advanced Training Set Construction for Retrieval in Historic Documents. Poster at the ''Sixth Asia Information Retrieval Societies Conf. (AIRS 2010)'', Taipei, Taiwan
- Andrea Ernst-Gerlach; Norbert Fuhr (2010).
- Semi-automatic Construction of Training Data for Historic Documents. Talk at LWA 2010, Kassel, Germany
Diplom-, Master- und Bachelorarbeiten
- Visualisierung von Regelstrukturen und -Modifikationsmöglichkeiten für die Suche in Texten mit nicht-standardisierter Rechtschreibung
- Abgeschlossene Diplomarbeit
- Development of a User Interface for Interactive Rule Generation
- Abgeschlossene Masterarbeit
- Regelbasierte Google Suche nach historischen Dokumenten
- Abgeschlossene Bachelorarbeit