Supervisor(s)

Student

Related projects

Pepper
Peer-to-Peer Architectures for Federated Search of Complex Digital Libraries

Related courses

Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Student project: Yahoo für das Invisible Web: Scatter/Gather-Clustering für semistrukturierte Daten
Prof. Dr.-Ing. Norbert Fuhr, Dipl.-Inform. Gudrun Fischer

Finished

2005-03

Formalia

Preconditions
  • Vorlesung Informationssysteme oder Information Retrieval (empfohlen)
  • Gute Programmierfähigkeiten (notwendig)
  • Programmiersprache Java (notwendig)

Task description

Peer-to-Peer-Netze (P2P) sind spontane Verbindungen von Clients, denen eine zentrale Instanz (ein zentraler Server) fehlt. Beispiele für P2P-Netze, die dem Filesharing dienen, sind Napster (hier gibt es allerdings einen zentralen Index), Gnutella und KaZaa. Im Projekt Pepper werden Peer-to-Peer-Architekturen für die föderierte Suche in komplexen digitalen Biliotheken entwickelt. Zusätzlich zur Suche ist auch eine Browsingfunktionalität wünschenswert.

Dokumentenclustering ist das Zusammenfassen von Dokumenten nach Ähnlichkeit in Gruppen (Cluster). Im Praxispojekt Invisible Web wurde ein Cluster-basiertes Browsing-Werkzeug für beliebige XML-Kollektionen entwickelt. Dabei wurde eine vorprozessierte Variante des Scatter/Gather-Algorithmus ( [Cutting/etal:93] ) verwendet, die die jeweilige Kollektion vor dem Browsing offline als Cluster-Hierarchie aufbereitet. Das Browsing geschieht dann größtenteils auf komprimierten Darstellungen (Profilen) von Dokumentenclustern, anstatt auf der Dokumentenmenge selbst.

Dieses Prinzip lässt sich auf das Browsing in einem Peer-to-Peer-Netz von digitalen Bibliotheken übertragen: Jeder Knoten bildet eine kondensierte Darstellung seines Inhaltes, indem er seine eigenen Dokumente clustert. Die oberste(n) Ebene(n) der resultierenden Cluster-Hierarchie und eventuell weitere Informationen über sich selbst bietet er dann innerhalb des Netzes seinen Nachbarn an. Wenn ein Anwender von irgendeinem dieser Knoten aus browsen möchte, so sammelt der Knoten die kondensierten Darstellungen seiner Nachbarn, verbindet sie (wieder mittels Clustering) mit seiner eigenen und bietet dem Anwender so eine Übersicht über alle zu dem Zeitpunkt gerade verfügbaren Inhalte an, in der der Anwender dann nach dem Scatter/Gather-Prinzip in die Tiefe browsen kann.

Im Rahmen dieser Diplomarbeit soll Scatter/Gather-Browsing für ein Peer-to-Peer-Netz umgesetzt werden. Clustering-Algorithmen und ein Scatter/Gather-Werkzeug sind schon vorhanden. Es fehlt ein Verfahren, um Cluster von verschiedenen Knoten einzusammeln und daraus eine Gesamtdarstellung zu generieren, sowie die Möglichkeit, eigene, lokale Cluster zu exportieren.

Diese Diplomarbeit umfasst folgende Aufgaben:

Result text

Andre Nurzenski (2005).
Cluster-basiertes Browsing in Peer-to-Peer-Netzen. Diplomarbeit

Literature

D. R. Cutting; D. R. Karger; J. O. Pedersen (1993).
Constant Interaction-Time Scatter/Gather Browsing of Very Large Document Collections. In Proceedings of the Sixteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval