Effektive und effiziente Updates in invertierten Dateien

Status


Abgeschlossene Diplomarbeit

Bearbeiter


  • Björn Somberg

Verwandte Projekte


  • HyREX
    Hyper-media Retrieval Engine for XML

Abgabetermin


2003 - 01

Aufgabenstellung


Für HyREX, die Hypermedia Retrieval Engine für XML-Dokumente, werden Zugriffspfade benötigt, die ein effizientes Update (Hinzufügen/Modifiziern/Löschen von Dokumenten zur Datenbasis) erlauben.

Der im Information Retrieval gebräuchlichste Zugriffspfad ist die Invertierte Datei. Terme werden auf effiziente Weise auf Vorkommensbeschreibungen abgebildet. Jede Vorkommensbeschreibung (auch Posting genannt) gibt Auskunft darüber, in welchem Dokument der Term an welcher Stelle auftritt. Dazu können weitere Informationen, die das Vorkommen näher charakterisieren, in einem Posting gespeichert werden. Insbesondere für das Text-Retrieval wird im Allgemeinen noch ein Indexierungsgewicht gespeichert, welches Auskunft über die Relevanz des Terms für das vorliegende Dokument gibt. Für die Berechnung solcher Indexierungsgewichte werden in der Praxis häufig heuristische Verfahren verwendet, die sich am Vektorraummodell orientieren.

Innerhalb dieser Diplomarbeit sollen Algorithmen und Datenstrukturen untersucht und implementiert werden, die effiziente Update-Operationen auf invertierten Listen erlauben. Insbesondere sollen dabei verschiedene Verfahren zur Berechnung von Indexierungsgewichten betrachtet werden, sowohl in Hinblick auf die Update-Effizienz als auch in Hinblick auf die resultierende Retrievalqualität.