Ein neuer, effektiver Ansatz zur Kategorisierung von Web Dokumenten

  • Citation-Key:
    Klas:99
  • Title:
    Ein neuer, effektiver Ansatz zur Kategorisierung von Web Dokumenten
  • Author(s):
    Claus-Peter Klas
  • In:
    Proceedings ADI'99 (Agenten -- Datenbanken -- Information Retrieval)
  • Year:
    1999

Abstract:


Der vorliegende Artikel beschreibt einen neuen, effektiven Ansatz zum automatischen Kategorisieren von Webdokumenten mittels HySpirit, einer probabilistischen, deduktiven Inferenz-Datenbank. Dieser neue Ansatz faßt Dokumente einer Kategorie zu einem neuen Dokument zusammen und bewertet die ?nlichkeit einer Anfrage zu diesen Dokumenten um die Kategorisierung vorzunehmen. Der Ansatz basiert auf einer textuellen Analyse der Webdokumente, um Terme zu extrahieren. Die Termgewichte werden mit Hilfe von Termvorkommen idf und Term-Dokumentvorkommen tf berechnet. Zur Evaluierung ist der Yahoo-Katalog und die Reuters-Kollektion verwendet worden. Für den Kategorisierung des Yahoo-Katalogs wurden ca. 13\% Treffer im ersten Rang erreicht, für die Reuters-Kollektion ca. 65\%.

Fulltext as PS