Betreuer

Bearbeiter

Abgabetermin

2001-01

Aufgabenstellung

Für die automatische Kategorisierung von Web-Dokumenten ist vorgegeben:

Ein (automatischer) Klassifikator lernt anhand des Schemas und der Lernstichprobe, wie neue (noch nicht klassifizierte) Dokumente in das Schema einzuordnen sind.

In der IR-Gruppe wurden zwei Ansätze zur automatischen Klassifikation von Web-Dokumenten entwickelt:

Aufgabe dieser Diplomarbeit ist es, beide Ansätze miteinander zu kombinieren. Darüberhinaus soll für die Klassifikation zusätzliches Wissen berücksichtigt werden: meist sind die vorgegebenen Klassifikationsschemata hierarchisch organisiert (so auch Yahoo!). Wissen über Beziehungen von Kategorien innerhalb eines solchen Schemas soll für eine bessere Klassifikation ausgenutzt werden.

Fertiger Text

Ingo Frommholz (2001).
Automatische Kategorisierung von Web-Dokumenten. Diplomarbeit

Literatur

Norbert Gövert; Mounia Lalmas; Norbert Fuhr (1999).
A probabilistic description-oriented approach for categorising Web documents. In Proceedings of the Eighth International Conference on Information and Knowledge Management
Yiming Yang (1994).
Expert Network: Effective and Efficent Learning from Human Decisions in Text Categorisation and Retrieval. In Proceedings of the Seventeenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
Claus-Peter Klas (1999).
Ein neuer, effektiver Ansatz zur Kategorisierung von Web Dokumenten. In: Proceedings ADI'99 (Agenten -- Datenbanken -- Information Retrieval)