Cluster-basiertes Browsing in Peer-to-Peer-Netzen

Status


Finished diploma thesis

Student


  • André Nurzenski

Related projects


  • Pepper
    Peer-to-Peer Architectures for Federated Search of Complex Digital Libraries

Related courses


Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Student project: Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer

Finished


2005 - 03

Formalia


Preconditions
  • Vorlesung Informationssysteme oder Information Retrieval (empfohlen)
  • Gute Programmierfähigkeiten (notwendig)
  • Programmiersprache Java (notwendig)

Task description


Peer-to-Peer-Netze (P2P) sind spontane Verbindungen von Clients, denen eine zentrale Instanz (ein zentraler Server) fehlt. Beispiele für P2P-Netze, die dem Filesharing dienen, sind Napster (hier gibt es allerdings einen zentralen Index), Gnutella und KaZaa. Im Projekt Pepper werden Peer-to-Peer-Architekturen für die föderierte Suche in komplexen digitalen Biliotheken entwickelt. Zusätzlich zur Suche ist auch eine Browsingfunktionalität wünschenswert.

Dokumentenclustering ist das Zusammenfassen von Dokumenten nach Ähnlichkeit in Gruppen (Cluster). Im Praxispojekt Invisible Web wurde ein Cluster-basiertes Browsing-Werkzeug für beliebige XML-Kollektionen entwickelt. Dabei wurde eine vorprozessierte Variante des Scatter/Gather-Algorithmus ( [Cutting/etal:93] ) verwendet, die die jeweilige Kollektion vor dem Browsing offline als Cluster-Hierarchie aufbereitet. Das Browsing geschieht dann größtenteils auf komprimierten Darstellungen (Profilen) von Dokumentenclustern, anstatt auf der Dokumentenmenge selbst.

Dieses Prinzip lässt sich auf das Browsing in einem Peer-to-Peer-Netz von digitalen Bibliotheken übertragen: Jeder Knoten bildet eine kondensierte Darstellung seines Inhaltes, indem er seine eigenen Dokumente clustert. Die oberste(n) Ebene(n) der resultierenden Cluster-Hierarchie und eventuell weitere Informationen über sich selbst bietet er dann innerhalb des Netzes seinen Nachbarn an. Wenn ein Anwender von irgendeinem dieser Knoten aus browsen möchte, so sammelt der Knoten die kondensierten Darstellungen seiner Nachbarn, verbindet sie (wieder mittels Clustering) mit seiner eigenen und bietet dem Anwender so eine Übersicht über alle zu dem Zeitpunkt gerade verfügbaren Inhalte an, in der der Anwender dann nach dem Scatter/Gather-Prinzip in die Tiefe browsen kann.

Im Rahmen dieser Diplomarbeit soll Scatter/Gather-Browsing für ein Peer-to-Peer-Netz umgesetzt werden. Clustering-Algorithmen und ein Scatter/Gather-Werkzeug sind schon vorhanden. Es fehlt ein Verfahren, um Cluster von verschiedenen Knoten einzusammeln und daraus eine Gesamtdarstellung zu generieren, sowie die Möglichkeit, eigene, lokale Cluster zu exportieren.

Diese Diplomarbeit umfasst folgende Aufgaben:

  • Einarbeitung in die Literatur (Clustering, Scatter/Gather, JXTA)
  • Entwurf eines P2P-Browsing-Knotens für das P2P-Netz JXTA, mit der Fähigkeit,
    • eine eigene, Cluster-basierte Darstellung zu generieren und im Netz anzubieten,
    • eigene, vorprozessierte Cluster zu exportieren und ggf. zu einem Cluster weitere Informationen auf Anfrage zu liefern, und
    • ein verteiltes Scatter/Gather-Browsing zumindest in der eigenen Umgebung durchzuführen (unter Verwendung der Informationen über seine Nachbarknoten).

Result text


  • Andre Nurzenski (2005).
    Cluster-basiertes Browsing in Peer-to-Peer-Netzen. Diplomarbeit
  • Literature