Effizienteres Dokumenten-Clustering durch Grafikprozessoren

Status


Finished bachelor thesis

Student


  • Marco Janc

Related projects


  • CAIR
    Semantic Cluster Analysis in Information Retrieval

Finished


2011 - 10

Formalia


Targeted audience
  • AI Bachelor
Preconditions
  • Erfahrung in der Programmierung mit Java (notwendig)
  • Fähigkeit zum Lesen und Verstehen englischer wissenschaftlicher Publikationen

Task description


Sollen Dokumente nach inhaltlichen Gesichtspunkten gruppiert werden (Dokumenten-Clustering), so ist es erforderlich zu bestimmen, wie ähnlich sich die einzelnen Dokumente sind. Die Berechnung der Ähnlichkeitswerte für alle möglichen Dokumentpaare ist aufwendig, da eine große Anzahl von gleichartigen Rechenoperationen durchgeführt werden muss.

Aufgrund der hohen Rechen- aber geringen Steuerungsintensität des Verfahrens kann der Grafikkartenprozessor (GPU) dazu verwendet werden, die Bestimmung der Dokumentähnlichkeiten zu beschleunigen, da dieser im Vergleich zum Hauptprozessor (CPU) für diese spezielle Art von Berechnungen optimiert ist.

In dieser Arbeit sollen Dokumente unter Verwendung des Grafikkartenprozessors gruppiert werden. Dazu soll GPGPU (General Purpose Computation on Graphics Processing Unit) beispielsweise in der Form von CUDA (Compute Unified Device Architecture) verwendet werden. Eine anschließende Evaluation soll prüfen, wie stark sich der Clustering-Prozess durch die zusätzliche Verwendung des Grafikkartenprozessors beschleunigen lässt.

Die Bachelorarbeit umfasst somit folgender Schritte:

  • Aufarbeitung der Literatur
  • Entwurf eines Konzepts zum Dokumenten-Clustering mit GPGPU
  • Auswahl und Einarbeitung in ein GPGPU-Rahmenwerk wie CUDA
  • Implementierung eines Dokumenten-Clustering-Verfahrens mit GPGPU
  • Evaluierung der Laufzeit

Ein Rechner mit einer geeigneten Grafikkarte wird bei Bedarf zur Verfügung gestellt.

Literature