Semiautomatisches Pflegen von Wrappern

Status


Abgeschlossene Diplomarbeit

Verwandte Projekte


  • MIND
    Auswahl geeigneter Datenbanken und Kombination der Retrievalergebnisse für multimediale internationale digitale Bibliotheken

Abgabetermin


2004 - 02

Formalia


Voraussetzungen
  • Vorlesung Informationssysteme oder Information Retrieval
  • Programmiersprache Java

Aufgabenstellung


Im Rahmen des Projektes MIND werden heterogene digitale Bibliotheken (DLs) durch eine zusätzliche Schicht zusammengefügt, so daß Benutzer die Illusion einer einheitlichen Digitalen Bibliothek hat. DL-spezifische Wrapper wandeln die Anfrage in das DL-Format um, kommunizieren mit der DL, parsen das Ergebnis (meist im HTMl-Format) und wandeln es in ein einheitliches Format (die MIND-Dokumentenrepräsentation) um.

Durch das Parsen von HTML-Code ist ein erheblicher manualler Aufwand nicht nur beim Einbinden einer neuen DL, sondern auch beim Pflegen vorhandener DLs (wenn sich der HTML-Code ändert) erforderlich. Ziel dieser Diplomarbeit ist das semiautomatische Pflegen von Wrappern, d.h. das Nachvollziehen von Änderungen im HTML-Code.

Angenommen wird, daß Dokumente vorliegen, die aus der DL extrahiert wurden, plus die zugehörigen alten HTML-Seiten und die Fragen, mit denen die Dokumente retrievt wurden. Außerdem ist der alte Wrapper in einer maschinenlesbaren Form (z.B. XPath, Daffodil-Wrapper-Toolkit) vorhanden. Ein neuer Wrapper könnte z.B. durch verschiedene Techniken erzeugt werden:

  • Heuristiken nutzen Regularitäten in der Struktur aus: Typisch für Retrievalergebnisseiten ist z.B. ein Kopf und ein Fußbereich und dazwischen eine listenartige Struktur, wobei jeder Eintrag einem MIND-Dokument entspricht und einen einheitlichen Aufbau besitzt (z.B. eine Tabellenzeile, ein Paragraph, getrennt durch ein <br>).
  • Suchen von Texten aus der Dokumentrepräsentation in HTML-Code.
  • Techniken für das Matchen von MIND-Schema, die zur Zeit entwickelt werden, können auf das Matching von XHTML (aus dem HTML gewonnen) und der Dokumentenrepräsentation angepaßt werden.

Diese Diplomarbeit umfaßt folgende Schritte:

  • Aufarbeitung der Literatur
  • Entwicklung von Verfahren zum Anpassen von HTML-Wrappern für allgemeine Fälle
  • prototypische Implementierung

Fertiger Text


  • Andrea Ernst-Gerlach (2004).
    Semiautomatisches Pflegen von Wrappern. Diplomarbeit