Entwicklung und Implementierung von Retrievalmethoden für strukturierte Dokumente
Status
Finished diploma thesis
Student
- Frank Kitscha
Finished
2001
-
Task description
Für Volltextretrieval werden Methoden benötigt, die die Struktur der Dokumente berücksichtigen. Hauptziel ist hierbei, den für eine Anfrage relevanten Teil eines Dokumentes zu finden. Im Rahmen dieser Arbeit sollen zwei verschiedene Ansätze für dieses Problem betrachtet werden:
- Ein Dokument wird als baumartige Struktur mit ungetypten Knoten aufgefasst und die Knoten werden einzeln gespeichert und indexiert. Zur Berücksichtigung der Struktur muss ein entsprechender Pfadindex angelegt werden, und die Retrievalfunktion muss bei der Berechnung der Retrievalgewichte die Länge der jeweiligen Pfade berücksichtigen.
- Dokumentformate wie z.B. XML implizieren ebenfalls eine baumartige Dokumentstruktur, wobei aber alle Knoten getypt sind. Dementsprechend soll es möglich sein, in der Anfrage zusätzlich Bedingungen an den Typ der zu findenden Knoten zu stellen. In der Literatur sind verschiedene Algorithmen für solche Arten von Anfragen vorgeschlagen, von denen einer ausgewählt und implementiert werden soll.
Für beide Ansätze soll eine Realisierung als Teil des am Lehrstuhl entwickelten IR-Systems DesIRe entwickelt werden. Da beim zweiten Ansatz im Allgemeinen feinere Dokumentstrukturen als im ersten Fall betrachtet werden, sollen darüber hinaus Möglichkeiten zur Kombination untersucht werden.
Literature
-
- G. Navarro; R. Baeza-Yates (1997).
- Proximal nodes: a model to query document databases by content and structure. ACM Transactions on Information Systems 15(4)
-
- Holger Meuss (1998).
- Indexed Tree Matching with Complete Answer Representations. In: Proceedings of the Workshop on Principles of Digital Document Processing 1998