Automatische Kategorisierung von Web-Dokumenten

Status


Finished diploma thesis

Finished


2001 - 01

Task description


Für die automatische Kategorisierung von Web-Dokumenten ist vorgegeben:

  • Ein Kategorienschema, in welches die zu kategorisierenden Dokumente eingeordnet werden müssen (z. B. die Klassenhierarchie von Yahoo!).
  • Eine Lernstichprobe, d. h. eine Menge von Dokumenten, die bezüglich des vorgegebenen Kategorienschemas bereits klassifiziert sind.

Ein (automatischer) Klassifikator lernt anhand des Schemas und der Lernstichprobe, wie neue (noch nicht klassifizierte) Dokumente in das Schema einzuordnen sind.

In der IR-Gruppe wurden zwei Ansätze zur automatischen Klassifikation von Web-Dokumenten entwickelt:

  • Der beschreibungsorientierte Ansatz [Goevert/etal:99] basiert auf einer probabilistischen Indexierung der Dokumente der Lernstichprobe; ein zu klassifizierenedes Dokument wird als Anfrage an die so erstellte Datenbank interpretiert; aus den Ergebnisdokumenten für diese Anfrage wird die Klassifikationsentscheidung mittels des k-Nearest-Neighbor-Verfahrens [Yang:94] getroffen.
  • Der zweite Ansatz [Klas:99] konkateniert alle Dokumente aus der Lernstichprobe, die einer Klasse zugeordnet wurden, zu einem Gesamtdokument für diese Klasse. Die so entstehenden Megadokumente werden indexiert. Ein zu klassifizierendes Dokument wird wiederum als Anfrage an die so erstellte Datenbank interpretiert; das Megadokument, welches die größte Ähnlichkeit zu dem Anfragedokument ausweist, wird zur Klassifikationsentscheidung herangezogen.

Aufgabe dieser Diplomarbeit ist es, beide Ansätze miteinander zu kombinieren. Darüberhinaus soll für die Klassifikation zusätzliches Wissen berücksichtigt werden: meist sind die vorgegebenen Klassifikationsschemata hierarchisch organisiert (so auch Yahoo!). Wissen über Beziehungen von Kategorien innerhalb eines solchen Schemas soll für eine bessere Klassifikation ausgenutzt werden.

Result text


  • Ingo Frommholz (2001).
    Automatische Kategorisierung von Web-Dokumenten. Diplomarbeit
  • Literature