Semiautomatisches Pflegen von Wrappern
Status
Abgeschlossene Diplomarbeit
Verwandte Projekte
-
- MIND
- Auswahl geeigneter Datenbanken und Kombination der Retrievalergebnisse für multimediale internationale digitale Bibliotheken
Abgabetermin
2004
-
Formalia
- Voraussetzungen
-
- Vorlesung Informationssysteme oder Information Retrieval
- Programmiersprache Java
Aufgabenstellung
Im Rahmen des Projektes MIND werden heterogene digitale Bibliotheken (DLs) durch eine zusätzliche Schicht zusammengefügt, so daß Benutzer die Illusion einer einheitlichen Digitalen Bibliothek hat. DL-spezifische Wrapper wandeln die Anfrage in das DL-Format um, kommunizieren mit der DL, parsen das Ergebnis (meist im HTMl-Format) und wandeln es in ein einheitliches Format (die MIND-Dokumentenrepräsentation) um.
Durch das Parsen von HTML-Code ist ein erheblicher manualler Aufwand nicht nur beim Einbinden einer neuen DL, sondern auch beim Pflegen vorhandener DLs (wenn sich der HTML-Code ändert) erforderlich. Ziel dieser Diplomarbeit ist das semiautomatische Pflegen von Wrappern, d.h. das Nachvollziehen von Änderungen im HTML-Code.
Angenommen wird, daß Dokumente vorliegen, die aus der DL extrahiert wurden, plus die zugehörigen alten HTML-Seiten und die Fragen, mit denen die Dokumente retrievt wurden. Außerdem ist der alte Wrapper in einer maschinenlesbaren Form (z.B. XPath, Daffodil-Wrapper-Toolkit) vorhanden. Ein neuer Wrapper könnte z.B. durch verschiedene Techniken erzeugt werden:
- Heuristiken nutzen Regularitäten in der Struktur aus: Typisch für Retrievalergebnisseiten ist z.B. ein Kopf und ein Fußbereich und dazwischen eine listenartige Struktur, wobei jeder Eintrag einem MIND-Dokument entspricht und einen einheitlichen Aufbau besitzt (z.B. eine Tabellenzeile, ein Paragraph, getrennt durch ein <br>).
- Suchen von Texten aus der Dokumentrepräsentation in HTML-Code.
- Techniken für das Matchen von MIND-Schema, die zur Zeit entwickelt werden, können auf das Matching von XHTML (aus dem HTML gewonnen) und der Dokumentenrepräsentation angepaßt werden.
Diese Diplomarbeit umfaßt folgende Schritte:
- Aufarbeitung der Literatur
- Entwicklung von Verfahren zum Anpassen von HTML-Wrappern für allgemeine Fälle
- prototypische Implementierung
Literatur
- W3C (1999)
- XML Path Language (XPath)
- Markus Rupp (2002)
- DAFFODIL: Wrapper für digitale Bibliotheken in Daffodil (Diplomarbeit).
- DoorenBos, R.B., Etzioni, O., Weld, D.S. (1997)
- A scalable comparison-shopping agent for the World-Wide Web