Probabilistische, beschreibungsorientierte Ansätze zur Diskussionssuche

Status


Offene Diplomarbeit

Betreuer


    Formalia


    Zielgruppe
    • DAI Hauptstudium : Bereich "D"
    Voraussetzungen
    • Fähigkeit im Lesen und Verstehen englischer wissenschaftlicher Publikationen (absolut notwendig)
    • Fähigkeit und Interesse, sich in neue theoretische und praktische Aspekte einzuarbeiten
    • Vorlesung Information Retrieval
    • Erfahrung in der Programmierung (absolut notwendig, bevorzugt Java)

    Aufgabenstellung


    Viele Informationssysteme bieten heutzutage die Möglichkeit, Themen mittels elektronischer Medien zu diskutieren. Klassische Formen solcher Diskussionsmöglichkeiten sind Email-Diskussionen, Newsgroup-Postings, aber auch webbasierte Foren, die z.B. den Inhalt eines Artikels diskutieren. Im Bereich der Digitalen Bibliotheken (DB) gibt es den Trend, das in der DB verwaltete Material zu interpretieren und somit neue Erkenntnisse zu gewinnen. Dementsprechend beschäftigt sich die Diskussionssuche mit dem Auffinden zu einer Anfrage relevanter neuer Kommentare.

    In dieser Diplomarbeit sollen nun probabilistische, beschreibungsorientierte Ansätze [Fuhr/Buckley:91] [Goevert/etal:99] [Frommholz:01] zur Diskussionssuche angewandt und evaluiert werden. Bei diesen Ansätzen werden Termeigenschaften (z.B. das Auftauchen eines Terms im Titel) benutzt, um mittels statistischer Methoden die Parameter einer Indexierungsfunktion zu lernen. Im Gegensatz zu bereits existierenden Ansätzen (siehe auch [Xi/etal:04] ) soll ein besonderes Augenmerk auf so genannte Highlight und Context Quotation [Frommholz:05] gelegt werden; das Auftauchen eines Terms in einer Highlight oder Context Quotations sind dabei Eigenschaften dieses Terms. Als Testkollektion steht ein Ausschnitt aus diversen Diskussionslisten des World Wide Web-Konsortiums (W3C) mit Anfragen und Relevanzurteilen zur Verfügung, wie sie im Enterprise Track der Evaluierungsinitative TREC [TREC:05] benutzt wurden.

    Die Diplomarbeit umfasst folgende Schritte:

    • Aufarbeitung der Literatur
    • Definition geeigneter Eigenschaften (Features), z.B. Vorkommen eines Terms in Highlight und Context Quotations
    • Anwenden linearer und logistischer Regression sowie Support Vector Machines [Joachims:98] zur Ermittlung einer Indexierungsfunktion
    • Evaluierung der Verfahren anhand der vorhandenen W3C Diskussionslisten gegenüber einer geeigneten Baseline.

    Das zu erstellende Softwarepaket zur linearen und logistischen Regression soll gut dokumentiert und später auf andere Kollektionen und Featuremengen einsetzbar sein.

    Literatur