Effizienteres Dokumenten-Clustering durch Grafikprozessoren

Status


Abgeschlossene Bachelorarbeit

Bearbeiter


  • Marco Janc

Verwandte Projekte


  • CAIR
    Semantische Clusteranalyse im Information Retrieval

Abgabetermin


2011 - 10

Formalia


Zielgruppe
  • AI Bachelor
Voraussetzungen
  • Erfahrung in der Programmierung mit Java (notwendig)
  • Fähigkeit zum Lesen und Verstehen englischer wissenschaftlicher Publikationen

Aufgabenstellung


Sollen Dokumente nach inhaltlichen Gesichtspunkten gruppiert werden (Dokumenten-Clustering), so ist es erforderlich zu bestimmen, wie ähnlich sich die einzelnen Dokumente sind. Die Berechnung der Ähnlichkeitswerte für alle möglichen Dokumentpaare ist aufwendig, da eine große Anzahl von gleichartigen Rechenoperationen durchgeführt werden muss.

Aufgrund der hohen Rechen- aber geringen Steuerungsintensität des Verfahrens kann der Grafikkartenprozessor (GPU) dazu verwendet werden, die Bestimmung der Dokumentähnlichkeiten zu beschleunigen, da dieser im Vergleich zum Hauptprozessor (CPU) für diese spezielle Art von Berechnungen optimiert ist.

In dieser Arbeit sollen Dokumente unter Verwendung des Grafikkartenprozessors gruppiert werden. Dazu soll GPGPU (General Purpose Computation on Graphics Processing Unit) beispielsweise in der Form von CUDA (Compute Unified Device Architecture) verwendet werden. Eine anschließende Evaluation soll prüfen, wie stark sich der Clustering-Prozess durch die zusätzliche Verwendung des Grafikkartenprozessors beschleunigen lässt.

Die Bachelorarbeit umfasst somit folgender Schritte:

  • Aufarbeitung der Literatur
  • Entwurf eines Konzepts zum Dokumenten-Clustering mit GPGPU
  • Auswahl und Einarbeitung in ein GPGPU-Rahmenwerk wie CUDA
  • Implementierung eines Dokumenten-Clustering-Verfahrens mit GPGPU
  • Evaluierung der Laufzeit

Ein Rechner mit einer geeigneten Grafikkarte wird bei Bedarf zur Verfügung gestellt.

Literatur