Effizienteres Dokumenten-Clustering durch Cloud Computing

Status


Finished diploma thesis

Student


  • Christian Schacht

Related projects


  • CAIR
    Semantic Cluster Analysis in Information Retrieval

Finished


2011 - 10

Formalia


Targeted audience
  • DAI Hauptstudium
  • AI Master
Preconditions
  • Fähigkeit zum Lesen und Verstehen englischer wissenschaftlicher Publikationen
  • Fähigkeit und Interesse, sich in neue technische Aspekte einzuarbeiten
  • Erfahrung in der Programmierung mit Java (notwendig)
  • Kenntnisse über Apache Hadoop und Map&Reduce (hilfreich)
  • Kenntnisse über Linux (hilfreich)

Task description


Das Gruppieren von Dokumenten mithilfe von Dokumenten-Clustering-Verfahren erfordert eine große Anzahl gleichartiger Operationen und ist damit aufwendig. Sollen die Dokument-Gruppierungen in Interaktion mit dem Benutzer erzeugt werden, so ist man daher auf eine effiziente Verarbeitung angewiesen, um eine akzeptable Reaktionszeit des Systems zu gewährleisten.

In dieser Arbeit soll untersucht werden, wie sich ein Clustering-Prozess so gestalten lässt, dass ein Einsatz in einer interaktiven Umgebung möglich ist. Dies soll durch eine möglichst starke Parallelisierung erreicht werden, sodass die erforderlichen Berechnungen verteilt über mehrere Rechner durchgeführt werden können und dabei möglichst viele verfügbare Ressourcen der einzelnen Rechner (wie beispielsweise mehrere Prozessorkerne) für eine effiziente Berechnung herangezogen werden können.

Als Infrastruktur steht hierzu eine Cloud bestehend aus derzeit zehn zweikernigen Rechnern zur Verfügung. Für das verteilte Ausführen der zu entwickelnden Software wurde das Java-Framework Apache Hadoop bereits vorinstalliert.

Die Abschlussarbeit umfasst somit folgende Schritte:

  • Aufarbeitung der Literatur und Einarbeitung in die Themengebiete und Rahmenwerke
  • Entwurf eines Konzepts für ein effizientes Clustering von Dokumenten
  • Implementierung eines parallelen Dokumenten-Clustering-Verfahrens
  • Evaluation der Laufzeit

Literature