Optimierung der Prozessierung von XIRQL-Anfragen

Status


Abgeschlossene Diplomarbeit

Bearbeiter


Verwandte Projekte


  • FOCUS
    Focussed retrieval of structured documents
  • HyREX
    Hyper-media Retrieval Engine for XML

Abgabetermin


2002 - 01

Aufgabenstellung


XIRQL ist die XML Information Retrieval Query Language. Während die derzeit vorgeschlagenen XML-Anfragesprachen (wie z. B. XQL, XPath, Quilt, XMLQL) meist sehr gut mit der Struktur in XML-Dokumenten umgehen können, integriert XIRQL das Struktur-orientierte Retrieval mit Information-Retrieval-Funktionalität. Hierzu zählt die Gewichtung bei Indexierung und Anfragestellung, Ranking von Retrievalergebnissen und das Formulieren von Anfragebedingungen mit Datentypen und ihren vagen Prädikaten.

Zur Prozessierung wurde eine Algebra entworfen, die in [Fuhr/Grossjohann:01] dokumentiert und prototypisch implementiert wurde. Anhand dieser Algebra (und geeigneter Erweiterungen) soll nun die Prozessierung von XIRQL-Anfragen optimiert werden. Dazu müssen zunächst folgende Schritte durchgeführt werden:

  • Ermittlung von Äquivalenzen in der Algebra.
  • Ermittlung der Algebra-Operatoren auf physischer Ebene. Welche Operatoren werden innerhalb der logischen Ebene verwendet? Welche Operatoreen werden von der physischen Ebene zur Verfügung gestellt?
  • Gegebenenfalls ist die Algebra zu erweitern, sollten auf physischer Ebene Operatoren zur Verfügung stehen, die bislang in der Algebra keine Darstellung haben.

Ist diese Basis geschaffen, können bereits alternative Prozessierungswege für eine XIRQL-Anfrage aufgestellt werden. In einem zweiten Schritt müssen die Alternativen nun bezüglich ihrer Effizienz bewertet werden. Dazu ist insbesondere die Selektivität der Operatoren auf physischer Ebene (z. B. anhand der benötigten I/O-Zugriffe) und die Größe der jeweils entstehenden Zwischenergebnisse zu betrachten.

Die so entwickelten Optimierungsstrategien sind innerhalb von HyREX zu implementieren und evaluieren.

Literatur