Entwurf, Realisierung und Evaluierung von linguistischen Suchprädikaten für HyREX

Status


Abgeschlossene Diplomarbeit

Bearbeiter


  • Marcus Skowronek

Verwandte Projekte


  • HyREX
    Hyper-media Retrieval Engine for XML

Abgabetermin


2002 - 10

Aufgabenstellung


Für das derzeit am Fachgebiet in Entwicklung befindliche Retrievalsystem HyREX sollen Suchprädikate für Komposita und Nominalphrasen entwickelt und in das System integriert werden.

Komposita sollen für die deutsche Sprache behandelt werden. Um auch nach Teilkomponenten von Komposita suchen zu können, muss ein automatisches Verfahren zur Zerlegung von Komposita in ihre Komponenten realisiert werden. Dieses Verfahren soll regelbasiert sein, also ohne ein umfangreiches Wörterbuch auskommen.

Für Englisch sollen Nominalphrasen behandelt werden, d.h. das Erkennen von mehrgliedrigen Ausdrücken im Text. Hierzu soll ein Tagger eingesetzt werden, der zunächst die Wortklassen bestimmt. Mit Hilfe einer einfachen Grammatik werden dann zulässige Nominalphrasen definiert und durch den Parser erkannt.

Für beide Verfahren sollen geeignete Zugriffsstukturen definiert und die entsprechenden Suchprädikate in das Retrievalsystem integriert werden. Zur Evaluierung der Güte der Lösungen stehen Test-Kollektionen aus der CLEF-Initiative zur Verfügung.