CAIR
Semantische Clusteranalyse im Information Retrieval
Allgemeine Informationen
- DFG
- DFG: FU 205/22-1
- UDE: ka00043i
Beschreibung
Clusteranalyseverfahren kombinieren ein Objektmodell, ein Ähnlichkeitsmaß und ein Fusionierungsprinzip, wobei der Fokus aktueller Forschung auf der Fusionierung liegt.
Bei anspruchsvollen Problemen kann Clusteranalyse nur erfolgreich sein, wenn die drei Elemente aufeinander abgestimmt sind und Wissen sowohl über die Analyseaufgabe als auch den Nutzer berücksichtigen. Dieses Prinzip einer "semantischen Clusteranalyse" hat das Potenzial, für relevante Probleme des Information Retrieval (IR) effizientere und qualitativ bessere Lösungen als existierende Technologie zu produzieren, ist bislang aber nicht systematisch untersucht worden.
Ziel unseres Vorhabens ist die theoretische, methodische und experimentelle Erforschung dieses Prinzips im IR. "Semantik" wird dabei in mehrfacher Weise eine Rolle spielen:
- in der Form von spezialisierten Retrievalmodellen, die Wissen über die IR-Aufgabe beinhalten,
- durch Integration von Wissen aus dem zu analysierenden Gegenstandsbereich,
- als "Ensemble-Clusteranalyse", der kombinierten Anwendung von Fusionierungsprinzipien,
- durch den Nutzer bei der Multi- und der interaktiven Clusteranalyse.
Gleichzeitig schafft die Integration von Semantik eine Grundlage zur automatischen Benennung von Clustern - eine der größten Schwachstellen der Clusteranalyse überhaupt.
Weitere Informationen:
- Projektseite der Arbeitsgruppe MediaSystems der Bauhaus-Universität Weimar
Veranstaltungen
-
Dagstuhl-Seminar (2011)
Challenges in Document Mining
Organisatoren: Hamish Cunningham, Oren Etzioni, Norbert Fuhr, Benno Stein
Publikationen
- Norbert Fuhr; Marc Lechtenfeld; Benno Stein; Tim Gollub (2012).
- The Optimum Clustering Framework: Implementing the Cluster Hypothesis. Information Retrieval 15
- Marc Lechtenfeld; Norbert Fuhr (2012).
- Result Clustering Supports Users with Vague Information Needs. In: Proceedings of the 12th Dutch-Belgian Information Retrieval Workshop 2012, Ghent, Belgium
- Odysseas Papapetrou; Wolf Siberski; Norbert Fuhr (2012).
- Decentralized Probabilistic Text Clustering. IEEE Transactions on Knowledge and Data Engineering 24(10)
- Hamish Cunningham; Norbert Fuhr; Benno Stein (2011).
- Challenges in Document Mining (Dagstuhl Seminar 11171). Dagstuhl Reports 1(4)
- Marco Janc (2011).
- Effizienteres Dokumenten-Clustering durch Grafikprozessoren. Bachelorarbeit
- Marc Lechtenfeld (2010).
- Benutzerorientiertes Dokumenten-Clustering durch die Verwendung einer Anfragemenge. In: Proceedings of the ``Information Retrieval 2010'' Workshop at LWA 2010, Kassel, Germany
- Odysseas Papapetrou; Wolf Siberski; Norbert Fuhr (2010).
- Text Clustering for Peer-to-Peer Networks with Probabilistic Guarantees. In: 32nd European Conference on Information Retrieval Research (ECIR 2010)
Vorträge
- Marc Lechtenfeld; Norbert Fuhr (2012).
- Result Clustering Supports Users with Vague Information Needs. Talk at the 12th Dutch-Belgian Information Retrieval Workshop 2012, Ghent, Belgium
- Norbert Fuhr (2011).
- A Framework for Optimum Document Clustering: Implementing the Cluster Hypothesis. Invited talk at Yandex, Moscow, Russia
- Norbert Fuhr (2011).
- A Framework for Optimum Document Clustering: Implementing the Cluster Hypothesis. Talk at Dagstuhl seminar 'Challenges in Document Mining'
- Marc Lechtenfeld (2010).
- Benutzerorientiertes Dokumenten-Clustering durch die Verwendung einer Anfragemenge. Poster at the ``Information Retrieval 2010'' Workshop at LWA 2010, Kassel, Germany
Diplom-, Master- und Bachelorarbeiten
- Effizienteres Dokumenten-Clustering durch Grafikprozessoren
- Abgeschlossene Bachelorarbeit
- Effizienteres Dokumenten-Clustering durch Cloud Computing
- Abgeschlossene Diplomarbeit
- Extraktion aspektbezogener Information aus Buchrezensionen
- Abgeschlossene Diplomarbeit