Auswahl geeigneter Datenbanken und Kombination der Retrievalergebnisse für multimediale internationale digitale Bibliotheken


Projektzeitraum:
Vom 01. 02. 2001 bis zum 31. 12. 2003
Kontaktpersonen:
Beteiligte Personen:
Gesponsert von:
  • EU FP5
Referenznummer:
IST-2000-26061, 0415053 (Dortmund), 15311571 (Duisburg)
Teilnehmende Institutionen:

Dieses Forschungprojekt bearbeitete Probleme, die aus der Benutzung tausender heterogener, verteilter multimedialer digitaler Bibliotheken resultieren. Die Benutzer müssen geeignete Bibliotheken auswählen ("resource selection"), ohne die Güteparameter der einzelnen Bibliotheken (Quantität, Qualität, Typ der Informationen, Herkunft der Dokumente, Relevanz) zu kennen. Anschließend sind die Ergebnisse in ein einheitliches Format zu überführen ("data fusion") und zu interpretieren. Dies erfolgt typischerweise durch eine visuelle Bewertung und ad-hoc-Integration, die den Benutzer zwingt, seine Aufmerksamkeit auf eine kleine Teilmenge der gefundenen Informationen zu konzentrieren.

MIND unterstützt den Benutzer bei der Auswahl der Bibliotheken, bei der Erzeugung der Anfragen für unterschiedliche Medien und bei der Kombination der Ergebnisse.

Die Universität Dortmund ist für drei Teilaufgaben verantwortlich:

  1. Auswahl geeigneter Datenbanken: Ausgangspunkt war das entscheidungstheoretisches Modell [Fuhr:99b] , das in Dortmund entwickelt wurde. Jeder Datenbank werden Kosten für das Retrieval zugeordnet (die Retrievalqualität, Kommunikationszeit und monetäre Kosten einschließen). Zu einer Frage (die gleichzeitig spezifiert, wie viele Dokumente geliefert werden sollen), soll dann eine optimale Auswahl gefunden werden, d.h. für jede Datenbank die Anzahl der zu liefernden Dokumente (aus Effizienzgründen sollte diese Zahl für die meisten Datenbanken Null sein). Nebenbedingungen sind, daß in der Summe hinreichend viele Dokumente erreicht werden sollen, und daß die Gesamtkosten minimal ist.

    Dieses Modell wurde in MIND verfeinert [Nottelmann/Fuhr:03a] . Die wesentlichen Errungenschaften:

    • 2 neue Verfahren zur Abschätzung der Retrievalqualität (simuliertes Retrieval auf einem Sample; angenommene Normalverteilung für die Indexierungsgewichte)
    • bessere Beschreibung der Beziehung zwischen Inferenzwahrscheinlichkeit (RSV) und Relevanzwahrscheinlichkeit durch logistische (statt linearer) Funktion [Nottelmann/Fuhr:03e]
    • erstmalige Evaluierung, vergleich Qualität zu CORI, dem State-of-the-Art in Sachen Resource Selection
    • Erweiterung auf andere Daten- und Medientypen neben Text [Nottelmann/Fuhr:03c]
    • Integration von CORI in das entscheidungstheoretische Modell
  2. Heterogenität: Die existierenden Bibliotheken unterscheiden sich deutlich im Inhalt und der Struktur (Schema [Fuhr:99] ) ihrer Dokumente (z.B. kann zwischen "editor" und "author" unterschieden werden). Daher muß die Benutzerfrage (die bezüglich eines globalen Schemas gestellt wird) für jede Datenbank übersetzt werden in das Schema dieser Datenbank.

    Diese Grundidee wurde in MIND weitergeführt und implementiert [Nottelmann/Fuhr:03b] . Die wesentlichen Errungenschaften:

    • Modellierung von MIND-Fragen und -Dokumenten in DAML+OIL
    • Definition von unsicheren Schema-Mapping-Regeln in Probabilistic Datalog
    • Umwandlung der Regeln in XSLT-Stylesheets
    • Implementierung
    • erste Ansätze zum Lernen der unsicheren logischen Regeln aus einer Beispielmenge [Nottelmann/Fuhr:01]
  3. Medientyp "Fakten": Im Projekt MIND wurden vier verschiedene Medientypen betrachtet: Text, Bilder, Fakten (z.B. Autoren, Jahreszahlen) und die Transkripte der Spracherkennung. Dortmund war verantwortlich für den Bereich "Fakten".

    In den meisten Bereichen unterscheiden sich Fakten nicht von Text. Wesentliche Unterschiede gibt es bei der Auswahl geeigneter Datenbanken. Daher wurde das entscheidungstheoretische Modell um die Kostenabschätzung für verschiedene Datentypen für Fakten erweitert [Nottelmann/Fuhr:03c] .

Unten stehen die Veröffentlichungen unserer Gruppe in Rahmen des Projektes. Auf der offiziellen Projektseite gibt es auch die Veröffentlichungen aller Projektpartner.


Publikationen



Vorträge


Diplom-, Master- und Bachelorarbeiten



Verwandte Projekte


DAFFODIL
Nutzerorientiertes Zugangssystem für heterogene Digitale Bibliotheken
Pepper
Peer-to-Peer-Architekturen für die föderierte Suche in komplexen digitalen Bibliotheken

Bemerkungen


Unsere deliverables