Effizienteres Dokumenten-Clustering durch Cloud Computing

Status


Abgeschlossene Diplomarbeit

Bearbeiter


  • Christian Schacht

Verwandte Projekte


  • CAIR
    Semantische Clusteranalyse im Information Retrieval

Abgabetermin


2011 - 10

Formalia


Zielgruppe
  • DAI Hauptstudium
  • AI Master
Voraussetzungen
  • Fähigkeit zum Lesen und Verstehen englischer wissenschaftlicher Publikationen
  • Fähigkeit und Interesse, sich in neue technische Aspekte einzuarbeiten
  • Erfahrung in der Programmierung mit Java (notwendig)
  • Kenntnisse über Apache Hadoop und Map&Reduce (hilfreich)
  • Kenntnisse über Linux (hilfreich)

Aufgabenstellung


Das Gruppieren von Dokumenten mithilfe von Dokumenten-Clustering-Verfahren erfordert eine große Anzahl gleichartiger Operationen und ist damit aufwendig. Sollen die Dokument-Gruppierungen in Interaktion mit dem Benutzer erzeugt werden, so ist man daher auf eine effiziente Verarbeitung angewiesen, um eine akzeptable Reaktionszeit des Systems zu gewährleisten.

In dieser Arbeit soll untersucht werden, wie sich ein Clustering-Prozess so gestalten lässt, dass ein Einsatz in einer interaktiven Umgebung möglich ist. Dies soll durch eine möglichst starke Parallelisierung erreicht werden, sodass die erforderlichen Berechnungen verteilt über mehrere Rechner durchgeführt werden können und dabei möglichst viele verfügbare Ressourcen der einzelnen Rechner (wie beispielsweise mehrere Prozessorkerne) für eine effiziente Berechnung herangezogen werden können.

Als Infrastruktur steht hierzu eine Cloud bestehend aus derzeit zehn zweikernigen Rechnern zur Verfügung. Für das verteilte Ausführen der zu entwickelnden Software wurde das Java-Framework Apache Hadoop bereits vorinstalliert.

Die Abschlussarbeit umfasst somit folgende Schritte:

  • Aufarbeitung der Literatur und Einarbeitung in die Themengebiete und Rahmenwerke
  • Entwurf eines Konzepts für ein effizientes Clustering von Dokumenten
  • Implementierung eines parallelen Dokumenten-Clustering-Verfahrens
  • Evaluation der Laufzeit

Literatur