Supervisor(s)

Student

Related projects

CAIR
Semantic Cluster Analysis in Information Retrieval

Finished

2011-10

Formalia

Targeted audience
  • DAI Hauptstudium
  • AI Master
Preconditions
  • Fähigkeit zum Lesen und Verstehen englischer wissenschaftlicher Publikationen
  • Fähigkeit und Interesse, sich in neue technische Aspekte einzuarbeiten
  • Erfahrung in der Programmierung mit Java (notwendig)
  • Kenntnisse über Apache Hadoop und Map&Reduce (hilfreich)
  • Kenntnisse über Linux (hilfreich)

Task description

Das Gruppieren von Dokumenten mithilfe von Dokumenten-Clustering-Verfahren erfordert eine große Anzahl gleichartiger Operationen und ist damit aufwendig. Sollen die Dokument-Gruppierungen in Interaktion mit dem Benutzer erzeugt werden, so ist man daher auf eine effiziente Verarbeitung angewiesen, um eine akzeptable Reaktionszeit des Systems zu gewährleisten.

In dieser Arbeit soll untersucht werden, wie sich ein Clustering-Prozess so gestalten lässt, dass ein Einsatz in einer interaktiven Umgebung möglich ist. Dies soll durch eine möglichst starke Parallelisierung erreicht werden, sodass die erforderlichen Berechnungen verteilt über mehrere Rechner durchgeführt werden können und dabei möglichst viele verfügbare Ressourcen der einzelnen Rechner (wie beispielsweise mehrere Prozessorkerne) für eine effiziente Berechnung herangezogen werden können.

Als Infrastruktur steht hierzu eine Cloud bestehend aus derzeit zehn zweikernigen Rechnern zur Verfügung. Für das verteilte Ausführen der zu entwickelnden Software wurde das Java-Framework Apache Hadoop bereits vorinstalliert.

Die Abschlussarbeit umfasst somit folgende Schritte:

Literature

Dean, Jeffrey; Ghemawat, Sanjay (2008).
MapReduce: simplified data processing on large clusters. Commun. ACM 51(1)
White, Tom; Romano, Robert (2009).
Hadoop: The Definitive Guide. O'Reilly Media
Apache Hadoop
Webseiten: