Effizienteres Dokumenten-Clustering durch Cloud Computing
Status
Abgeschlossene Diplomarbeit
Bearbeiter
- Christian Schacht
Abgabetermin
2011
-
Formalia
- Zielgruppe
-
- DAI Hauptstudium
- AI Master
- Voraussetzungen
-
- Fähigkeit zum Lesen und Verstehen englischer wissenschaftlicher Publikationen
- Fähigkeit und Interesse, sich in neue technische Aspekte einzuarbeiten
- Erfahrung in der Programmierung mit Java (notwendig)
- Kenntnisse über Apache Hadoop und Map&Reduce (hilfreich)
- Kenntnisse über Linux (hilfreich)
Aufgabenstellung
Das Gruppieren von Dokumenten mithilfe von Dokumenten-Clustering-Verfahren erfordert eine große Anzahl gleichartiger Operationen und ist damit aufwendig. Sollen die Dokument-Gruppierungen in Interaktion mit dem Benutzer erzeugt werden, so ist man daher auf eine effiziente Verarbeitung angewiesen, um eine akzeptable Reaktionszeit des Systems zu gewährleisten.
In dieser Arbeit soll untersucht werden, wie sich ein Clustering-Prozess so gestalten lässt, dass ein Einsatz in einer interaktiven Umgebung möglich ist. Dies soll durch eine möglichst starke Parallelisierung erreicht werden, sodass die erforderlichen Berechnungen verteilt über mehrere Rechner durchgeführt werden können und dabei möglichst viele verfügbare Ressourcen der einzelnen Rechner (wie beispielsweise mehrere Prozessorkerne) für eine effiziente Berechnung herangezogen werden können.
Als Infrastruktur steht hierzu eine Cloud bestehend aus derzeit zehn zweikernigen Rechnern zur Verfügung. Für das verteilte Ausführen der zu entwickelnden Software wurde das Java-Framework Apache Hadoop bereits vorinstalliert.
Die Abschlussarbeit umfasst somit folgende Schritte:
- Aufarbeitung der Literatur und Einarbeitung in die Themengebiete und Rahmenwerke
- Entwurf eines Konzepts für ein effizientes Clustering von Dokumenten
- Implementierung eines parallelen Dokumenten-Clustering-Verfahrens
- Evaluation der Laufzeit
Literatur
-
- Dean, Jeffrey; Ghemawat, Sanjay (2008).
- MapReduce: simplified data processing on large clusters. Commun. ACM 51(1)
- White, Tom; Romano, Robert (2009).
- Hadoop: The Definitive Guide. O'Reilly Media
- Apache Hadoop
-
Webseiten:
- Projektseite, Projektwiki und API (Version 0.20.1) von Apache Hadoop
- Tutorial von Yahoo!