Entwicklung und Implementierung von Retrievalmethoden für strukturierte Dokumente

Status


Abgeschlossene Diplomarbeit

Bearbeiter


  • Frank Kitscha

Verwandte Projekte


  • HyREX
    Hyper-media Retrieval Engine for XML

Abgabetermin


2001 - 08

Aufgabenstellung


Für Volltextretrieval werden Methoden benötigt, die die Struktur der Dokumente berücksichtigen. Hauptziel ist hierbei, den für eine Anfrage relevanten Teil eines Dokumentes zu finden. Im Rahmen dieser Arbeit sollen zwei verschiedene Ansätze für dieses Problem betrachtet werden:

  • Ein Dokument wird als baumartige Struktur mit ungetypten Knoten aufgefasst und die Knoten werden einzeln gespeichert und indexiert. Zur Berücksichtigung der Struktur muss ein entsprechender Pfadindex angelegt werden, und die Retrievalfunktion muss bei der Berechnung der Retrievalgewichte die Länge der jeweiligen Pfade berücksichtigen.
  • Dokumentformate wie z.B. XML implizieren ebenfalls eine baumartige Dokumentstruktur, wobei aber alle Knoten getypt sind. Dementsprechend soll es möglich sein, in der Anfrage zusätzlich Bedingungen an den Typ der zu findenden Knoten zu stellen. In der Literatur sind verschiedene Algorithmen für solche Arten von Anfragen vorgeschlagen, von denen einer ausgewählt und implementiert werden soll.

Für beide Ansätze soll eine Realisierung als Teil des am Lehrstuhl entwickelten IR-Systems DesIRe entwickelt werden. Da beim zweiten Ansatz im Allgemeinen feinere Dokumentstrukturen als im ersten Fall betrachtet werden, sollen darüber hinaus Möglichkeiten zur Kombination untersucht werden.

Literatur