MIND

Auswahl geeigneter Datenbanken und Kombination der Retrievalergebnisse für multimediale internationale digitale Bibliotheken
Allgemeine Informationen
- EU FP5
Beschreibung
Dieses Forschungprojekt bearbeitete Probleme, die aus der Benutzung tausender heterogener, verteilter multimedialer digitaler Bibliotheken resultieren. Die Benutzer müssen geeignete Bibliotheken auswählen ("resource selection"), ohne die Güteparameter der einzelnen Bibliotheken (Quantität, Qualität, Typ der Informationen, Herkunft der Dokumente, Relevanz) zu kennen. Anschließend sind die Ergebnisse in ein einheitliches Format zu überführen ("data fusion") und zu interpretieren. Dies erfolgt typischerweise durch eine visuelle Bewertung und ad-hoc-Integration, die den Benutzer zwingt, seine Aufmerksamkeit auf eine kleine Teilmenge der gefundenen Informationen zu konzentrieren.
MIND unterstützt den Benutzer bei der Auswahl der Bibliotheken, bei der Erzeugung der Anfragen für unterschiedliche Medien und bei der Kombination der Ergebnisse.
Die Universität Dortmund ist für drei Teilaufgaben verantwortlich:
Auswahl geeigneter Datenbanken: Ausgangspunkt war das entscheidungstheoretisches Modell [Fuhr:99b] , das in Dortmund entwickelt wurde. Jeder Datenbank werden Kosten für das Retrieval zugeordnet (die Retrievalqualität, Kommunikationszeit und monetäre Kosten einschließen). Zu einer Frage (die gleichzeitig spezifiert, wie viele Dokumente geliefert werden sollen), soll dann eine optimale Auswahl gefunden werden, d.h. für jede Datenbank die Anzahl der zu liefernden Dokumente (aus Effizienzgründen sollte diese Zahl für die meisten Datenbanken Null sein). Nebenbedingungen sind, daß in der Summe hinreichend viele Dokumente erreicht werden sollen, und daß die Gesamtkosten minimal ist.
Dieses Modell wurde in MIND verfeinert [Nottelmann/Fuhr:03a] . Die wesentlichen Errungenschaften:
- 2 neue Verfahren zur Abschätzung der Retrievalqualität (simuliertes Retrieval auf einem Sample; angenommene Normalverteilung für die Indexierungsgewichte)
- bessere Beschreibung der Beziehung zwischen Inferenzwahrscheinlichkeit (RSV) und Relevanzwahrscheinlichkeit durch logistische (statt linearer) Funktion [Nottelmann/Fuhr:03e]
- erstmalige Evaluierung, vergleich Qualität zu CORI, dem State-of-the-Art in Sachen Resource Selection
- Erweiterung auf andere Daten- und Medientypen neben Text [Nottelmann/Fuhr:03c]
- Integration von CORI in das entscheidungstheoretische Modell
Heterogenität: Die existierenden Bibliotheken unterscheiden sich deutlich im Inhalt und der Struktur (Schema [Fuhr:99] ) ihrer Dokumente (z.B. kann zwischen "editor" und "author" unterschieden werden). Daher muß die Benutzerfrage (die bezüglich eines globalen Schemas gestellt wird) für jede Datenbank übersetzt werden in das Schema dieser Datenbank.
Diese Grundidee wurde in MIND weitergeführt und implementiert [Nottelmann/Fuhr:03b] . Die wesentlichen Errungenschaften:
- Modellierung von MIND-Fragen und -Dokumenten in DAML+OIL
- Definition von unsicheren Schema-Mapping-Regeln in Probabilistic Datalog
- Umwandlung der Regeln in XSLT-Stylesheets
- Implementierung
- erste Ansätze zum Lernen der unsicheren logischen Regeln aus einer Beispielmenge [Nottelmann/Fuhr:01]
Medientyp "Fakten": Im Projekt MIND wurden vier verschiedene Medientypen betrachtet: Text, Bilder, Fakten (z.B. Autoren, Jahreszahlen) und die Transkripte der Spracherkennung. Dortmund war verantwortlich für den Bereich "Fakten".
In den meisten Bereichen unterscheiden sich Fakten nicht von Text. Wesentliche Unterschiede gibt es bei der Auswahl geeigneter Datenbanken. Daher wurde das entscheidungstheoretische Modell um die Kostenabschätzung für verschiedene Datentypen für Fakten erweitert [Nottelmann/Fuhr:03c] .
Unten stehen die Veröffentlichungen unserer Gruppe in Rahmen des Projektes. Auf der offiziellen Projektseite gibt es auch die Veröffentlichungen aller Projektpartner.
Publikationen
- J. Callan; F. Crestani; H. Nottelmann; P. Pala; X. M. Shou (2003).
- Resource Selection and Data Fusion in Multimedia Distributed Digital Libraries (poster). In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
- H. Nottelmann; N. Fuhr (2003).
- From uncertain inference to probability of relevance for advanced IR applications. In 25th European Conference on Information Retrieval Research (ECIR 2003)
- H. Nottelmann; N. Fuhr (2003).
- Evaluating different methods of estimating retrieval quality for resource selection. In Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
- H. Nottelmann; N. Fuhr (2003).
- Combining DAML+OIL, XSLT and probabilistic logics for uncertain schema mappings in MIND. In Research and Advanced Technology for Digital Libraries. Proc. European Conference on Digital Libraries (ECDL 2003)
- H. Nottelmann; N. Fuhr (2003).
- Decision-theoretic resource selection for different data types in MIND. In Recent research in multimedia distributed information retrieval. Proceedings of the ACM SIGIR 2003 Workshop on Distributed Information Retrieval, Toronto, Canada. (Lecture Notes in Computer Science, 2924).
- H. Nottelmann; N. Fuhr (2003).
- The MIND Architecture for Heterogeneous Multimedia Federated Digital Libraries. In Recent research in multimedia distributed information retrieval. Proceedings of the ACM SIGIR 2003 Workshop on Distributed Information Retrieval, Toronto, Canada. (Lecture Notes in Computer Science, 2924).
- H. Nottelmann; N. Fuhr (2003).
- From Retrieval Status Values to Probabilities of Relevance for Advanced IR Applications. Information Retrieval 6(4)
- H. Nottelmann; P. Pala (2003).
- MIND: A Graphical User Interface for Presenting Fused Results from Multi-Media Distributed Digital Libraries (poster). In Research and Advanced Technology for Digital Libraries. Proc. European Conference on Digital Libraries (ECDL 2003)
- N. Fuhr; C.-P. Klas (2001).
- Combining RDF and Agent-Based Architectures for Semantic Interoperability in Digital Libraries. In Proceedings of the DELOS-Workshop on Interoperability in Digital Libraries
- H. Nottelmann; N. Fuhr (2001).
- Learning probabilistic Datalog rules for information classification and transformation. In Proceedings of the 10th International Conference on Information and Knowledge Management
- H. Nottelmann; N. Fuhr (2001).
- MIND: An architecture for multimedia information retrieval in federated digital libraries. In Proceedings of the DELOS-Workshop on Interoperability in Digital Libraries
Vorträge
- Norbert Fuhr (2003).
- Multimedia Information Retrieval in Networked Digital Libraries. Talk at the Perspectives Seminar ``Multimedia Retrieval'', Dagstuhl
- Henrik Nottelmann (2003).
- Probabilistic logics for defining and using P2P service descriptions. QMIR Seminar, London
Diplom-, Master- und Bachelorarbeiten
- Semiautomatisches Pflegen von Wrappern
- Abgeschlossene Diplomarbeit
- Lernen unsicherer Regeln in HySpirit
- Abgeschlossene Diplomarbeit