Cluster-basiertes Browsing in Peer-to-Peer-Netzen

Status


Abgeschlossene Diplomarbeit

Bearbeiter


  • André Nurzenski

Verwandte Projekte


  • Pepper
    Peer-to-Peer-Architekturen für die föderierte Suche in komplexen digitalen Bibliotheken

Verwandte Lehrveranstaltungen


Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Studien-/Praxisprojekt: Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer

Abgabetermin


2005 - 03

Formalia


Voraussetzungen
  • Vorlesung Informationssysteme oder Information Retrieval (empfohlen)
  • Gute Programmierfähigkeiten (notwendig)
  • Programmiersprache Java (notwendig)

Aufgabenstellung


Peer-to-Peer-Netze (P2P) sind spontane Verbindungen von Clients, denen eine zentrale Instanz (ein zentraler Server) fehlt. Beispiele für P2P-Netze, die dem Filesharing dienen, sind Napster (hier gibt es allerdings einen zentralen Index), Gnutella und KaZaa. Im Projekt Pepper werden Peer-to-Peer-Architekturen für die föderierte Suche in komplexen digitalen Biliotheken entwickelt. Zusätzlich zur Suche ist auch eine Browsingfunktionalität wünschenswert.

Dokumentenclustering ist das Zusammenfassen von Dokumenten nach Ähnlichkeit in Gruppen (Cluster). Im Praxispojekt Invisible Web wurde ein Cluster-basiertes Browsing-Werkzeug für beliebige XML-Kollektionen entwickelt. Dabei wurde eine vorprozessierte Variante des Scatter/Gather-Algorithmus ( [Cutting/etal:93] ) verwendet, die die jeweilige Kollektion vor dem Browsing offline als Cluster-Hierarchie aufbereitet. Das Browsing geschieht dann größtenteils auf komprimierten Darstellungen (Profilen) von Dokumentenclustern, anstatt auf der Dokumentenmenge selbst.

Dieses Prinzip lässt sich auf das Browsing in einem Peer-to-Peer-Netz von digitalen Bibliotheken übertragen: Jeder Knoten bildet eine kondensierte Darstellung seines Inhaltes, indem er seine eigenen Dokumente clustert. Die oberste(n) Ebene(n) der resultierenden Cluster-Hierarchie und eventuell weitere Informationen über sich selbst bietet er dann innerhalb des Netzes seinen Nachbarn an. Wenn ein Anwender von irgendeinem dieser Knoten aus browsen möchte, so sammelt der Knoten die kondensierten Darstellungen seiner Nachbarn, verbindet sie (wieder mittels Clustering) mit seiner eigenen und bietet dem Anwender so eine Übersicht über alle zu dem Zeitpunkt gerade verfügbaren Inhalte an, in der der Anwender dann nach dem Scatter/Gather-Prinzip in die Tiefe browsen kann.

Im Rahmen dieser Diplomarbeit soll Scatter/Gather-Browsing für ein Peer-to-Peer-Netz umgesetzt werden. Clustering-Algorithmen und ein Scatter/Gather-Werkzeug sind schon vorhanden. Es fehlt ein Verfahren, um Cluster von verschiedenen Knoten einzusammeln und daraus eine Gesamtdarstellung zu generieren, sowie die Möglichkeit, eigene, lokale Cluster zu exportieren.

Diese Diplomarbeit umfasst folgende Aufgaben:

  • Einarbeitung in die Literatur (Clustering, Scatter/Gather, JXTA)
  • Entwurf eines P2P-Browsing-Knotens für das P2P-Netz JXTA, mit der Fähigkeit,
    • eine eigene, Cluster-basierte Darstellung zu generieren und im Netz anzubieten,
    • eigene, vorprozessierte Cluster zu exportieren und ggf. zu einem Cluster weitere Informationen auf Anfrage zu liefern, und
    • ein verteiltes Scatter/Gather-Browsing zumindest in der eigenen Umgebung durchzuführen (unter Verwendung der Informationen über seine Nachbarknoten).

Fertiger Text


  • Andre Nurzenski (2005).
    Cluster-basiertes Browsing in Peer-to-Peer-Netzen. Diplomarbeit
  • Literatur