Browsing in Multi-Level-Hypertext

Status


Abgeschlossene Diplomarbeit

Bearbeiter


  • Michael Chojnacki

Verwandte Lehrveranstaltungen


Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Studien-/Praxisprojekt: Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer

Abgabetermin


2004 - 09

Formalia


Voraussetzungen
  • Vorlesung Informationssysteme oder Information Retrieval
  • Gute Programmierfähigkeiten (notwendig)
  • Programmiersprache Java (notwendig)

Aufgabenstellung


Im Studienprojekt Invisible Web wurde ein Cluster-basiertes Browsing-Werkzeug für XML-Kollektionen entwickelt. Mit diesem Werkzeug kann der Anwender eine Kollektion von XML-Dokumenten erforschen, indem er sich die Kollektion zunächst grob in Gruppen von untereinander ähnlichen Dokumenten unterteilen lässt, dann einzelne oder mehrere Gruppen auswählt und genauer aufteilen lässt usw.

Eine ähnliche Funktionalität ist auch für die Terme denkbar, die in den Dokumenten einer Kollektion vorkommen, sogar ohne dabei die Dokumente selber zu betrachten. Eine Menge von Termen müsste jeweils automatisch so aufgeteilt werden, dass der Anwender einen kompakten Überblick über die Gesamtmenge erhält. Die so entstandenen Partitionen müssten wiederum auswählbar sein, um sie noch feiner aufzuteilen, usw. Mögliche Ansätze hierfür sind Clustering (Aufteilung nach Ähnlichkeit) oder zum Beispiel eine Aufteilung in Intervalle ("A" bis "Ch", "Ci" bis "Feu" ...). Diese Funktionalität ließe sich später auf Attributwerte (Inhalte bestimmter Felder der XML-Dokumente, z.B. Autorennamen oder Jahreszahlen) verallgemeinern.

XML-Dokumente einerseits und Terme andererseits sind zwei Abstraktionsebenen derselben Kollektion und bilden einen Multi-Level-Hypertext (vergl. auch [Fuhr:99c] ), da es innerhalb dieser Ebenen Verbindungen zwischen Objekten gibt (z.B. Ähnlichkeit, Auftreten im selben Cluster), aber auch zwischen Objekten unterschiedlicher Ebenen: ein Dokument enthält bestimmte Terme, ein Term wiederum tritt in verschiedenen Dokumenten auf.

In dieser Diplomarbeit soll ein Konzept für das integrierte Browsing auf beiden Ebenen entwickelt werden: Der Anwender soll Dokumentbeschreibungen browsen können, ebenso wie Mengen von Termen. Innerhalb einer Ebene sollen verschiedene Anordnungsmechanismen möglich sein, z.B. eine Rangliste oder eine Aufteilung in Gruppen (Cluster). Der Übergang von einer Ebene zur anderen soll intuitiv und möglichst ohne nennenswerte Wartezeit erfolgen. Der Anwender soll also möglichst leicht von einem Dokument zu dessen Termen (und ggf. weiteren passenden) kommen, und von einem Term wiederum zu passenden Dokumenten.

Diese Diplomarbeit umfasst folgende Aufgaben:

  • Aufarbeitung der Literatur
  • Entwicklung und prototypische Implementierung eines Browsing-Werkzeugs für Multi-Level-Hypertext, insbesondere
    • eine Clustering-Komponente für Terme
    • Integration von Term- und Dokumenten-Browsing
  • Evaluierung des entstandenen Werkzeugs

Fertiger Text


  • Michael Chojnacki (2004).
    Browsing in Multi-Level-Hypertext. Diplomarbeit
  • Literatur