Interaktives Dokumenten-Clustering mit Cloud-Computing
2009-10-01

Lehrpersonen


Dozent(in)

Formalia


Zielgruppe
  • DAI Hauptstudium, Bereich D, E und F mit 8+4 Wochenstunden und 16 Kreditpunkten
  • Angewandte Informatik Bachelor mit 2+4 Wochenstunden und 8 Kreditpunkten
  • Komedia Master

Beschreibung


Cloud Computing ist das aktuelle Paradigma für eine verteilte IT-Infrastruktur, bei der dem Anwender dynamisch skalierbare und virtuelle Ressourcen zur Verfügung gestellt werden. Mehrere große Firmen bieten solche 'Clouds' bereits als Dienstleistungen an, wo Kunden umfangreiche Prozesse abarbeiten lassen können. Voraussetzung für den Einsatz von Cloud-Computing ist dabei die Kompatibilität der verwendeten Software mit der zur Verfügung gestellte Plattform.

Im Rahmen dieses Studienprojektes soll als Plattform Hadoop eingesetzt werden, das auf dem Map/Reduce-Programmierparadigma basiert. Map/Reduce ist durch den Einsatz in der Google-Suchmaschine populär geworden; dabei wird die zu bearbeitende Aufgabe im Map-Schritt in Teilaufgaben zerlegt, die der initiierende Rechnerknoten sukzessive an die anderen zur Verfügung stehenden Rechner verteilt. Im Reduce-Schritt werden dann die Teillösungen zusammengeführt. Die Plattform erledigt dabei die konkrete Verteilung sowie die Synchronisation und gewährleistet zudem Fehlertoleranz.

Als Anwendungsgebiet für die o.g. Konzepte soll in diesem Projekt Dokumenten-Clustering betrachtet werden, das Gegenstand unsere laufenden DFG-Projektes Semantische Clusteranalyse im Information Retrieval ist. Clustering beschäftigt sich mit der Gruppierung von Objekten nach Ähnlichkeit, etwa bei Web-Suchmaschinen zur weiteren Strukturierung des Suchergebnisses (z.B. bei Vivisimo). Da für interaktives Clustering kurze Antwortzeiten essentiell sind, sollen zum Clustering 8-12 PCs parallel eingesetzt werden, wobei Hadoop die Basis für die verteilte Berechnung bilden soll.

Anmeldung und Vorbesprechung


Es sind leider keine weiteren Teilnehmerplätze mehr verfügbar.

Die Vorbesprechung findet am Montag, den 12.10.2009 um 16:00 Uhr in LF 261 statt.

Informationen und Material


Kursmaterial und weitere Informationen zum Ablauf des Projektes werden im Moodle-Kurs Interaktives Dokumenten-Clustering mit Cloud-Computing veröffentlicht. Die Zugangsdaten werden in der Vorbesprechung bekanntgegeben.