Vasari: Wissensextraktion und -fusion am Beispiel eines Kunst-Informationssystems

Beschreibung


[ Giorgio Vasari ]

Inhalt

Wissen liegt häufig nur in textueller Form und verstreut über viele Dokumente vor (z. B. innerhalb eines Unternehmens oder im WWW). Im Rahmen dieser Projektgruppe sollen am Beispiel eines Kunst-Informationssystems Methoden zur automatischen Wissensextraktion aus Texten und zum Zusammenführen des aus verschiedenen Dokumenten gewonnenen Wissens in einer Wissensbasis entwickelt werden. Die Nutzung der Wissensbasis soll über einen Web-Zugang mit Hilfe geeigneter Suchmechanismen und Navigationsstrukturen erfolgen. Zum Einsatz kommen dabei Text-Mining-Methoden für die Analyse der Daten sowie die Web-Standards XML und RDF für die Wissensrepräsentation.

Die Dokumente sind nach Erscheinungsdatum sortierte (das Neueste steht oben).

Veranstalter dieser Projektgruppe sind:

Zu finden sind wir in den Räumen 416 und 417 im Geschossbau V auf dem Campus Süd. Telefonisch erreicht man uns unter 755-3032.

Freitag, 19. April bis Sonntag, 21. April
PG-Seminar in der DJH Hagen
Dienstag, 5. Februar, 14:15 Uhr (Geschossbau V, Raum 418)
Die erste PG-Sitzung (Handout und Notizen zum KickOff-Treffen).

In vielen Bereichen liegt der größte Teil des verfügbaren Wissens nur in textueller Form vor. Während z. B. in Unternehmen in der Vergangenheit große Anstrengungen unternommen wurden, um das verfügbare Faktenwissen in umfassenden Datenbanken (Data Warehouse) zusammenzufassen, geht man heute davon aus, dass das in Texten enthaltene Wissen das Faktenwissen bezüglich des Umfangs um Größenordnungen übertrifft. Gleichzeitig fehlt es aber bislang an geeigneten Methoden, um das Wissen aus Texten zusammenzuführen und nutzbar zu machen.

Im Rahmen dieser Projektgruppe sollen für einen Anwendungsbereich mit überschaubarer Komplexität solche Methoden (weiter-)entwickelt und prototypisch angewendet werden. Die Anwendung ist dabei ein Kunst-Informationssystem, das aus den Texten von Kunstlexika aufgebaut werden soll.

Ziel des vom Bochumer Kunstverein artregister.org initiierten Giorgio-Vasari-Projektes ist es, sowohl einer interessierten Öffentlichkeit, als auch dem Fachpublikum vielfältige Informationen über Kunst und Künstler auf einfache Weise zu erschließen. Die Errichtung einer allgemein zugänglichen Datenbank im World Wide Web soll das Fundament dafür schaffen. Als Datengrundlage für den Aufbau eines solchen Web-Informationssystems dienen zahlreiche Kunstlexika. Die Einträge in diesen Lexika orientieren sich meist an den Künstlern selbst; die unterschiedlichen Lexika bilden jedoch stets auch unterschiedliche Schwerpunkte; während beispielsweise [Thieme/Becker:92] sich mit den Biographien der Künstler beschäftigen (im genannten Nachschlagewerk sind davon ca. 250000 erfasst), konzentrieren sich andere Lexika z. B. auf die Werksverzeichnisse der Künstler und beschreiben somit ausführlich das Lebenswerk der Künstler. Wieder andere Nachschlagewerke widmen sich der Identifikation von Künstlern und enthalten Signaturen, Monogramme und Symbole der Künstler.

Als Basis für dieses Projekt stellt uns der Verein artregister.org die aus mehr als 100 Bänden eingescannten Texte solcher Nachschlagewerke (aufgrund des Alters der meisten Texte unterliegen diese keinerlei Copyright-Beschränkungen) zur Verfügung, die mit einer OCR-Software aufbereitet wurden.

Aufgabe der Projektgruppe ist es nun, diese Daten über eine Web-Schnittstelle zugänglich zu machen, so dass Nutzer sich den Inhalt über geeignete Such- und Navigationsstrukturen erschließen können.

[ Die komplette Beschreibung | Präsentationsfolien I | Präsentationsfolien II ]

[ nur aus dem Fachbereichsnetz zugreifbar ]
Prototyp Kunst-Informationssystem
Dieser Prototyp ist im Rahmen der Diplomarbeit von Christian Sarnes entstanden. Er enthält nur eine sehr begrenzte Anzahl von Dokumenten; dennoch wird hier schon beispielhaft gezeigt, wie Such- und Navigationsstrukturen für das Kunst-Informationssystem aussehen können.
Suche in (XML-)strukturierten Dokumenten
Wenn man die Strukturierung der Dokumente für die Suche ausnutzt, erhält man weitaus präzisere Suchmöglichkeiten, als es mit einfacher Stichwortsuche der Fall ist. Zwei Kollektionen stehen zu Demonstrationszwecken zur Verfügung:
RDF/RQL-Demo

Brickley, D.; Miller, E.; Schloss, B.; Singer, D.; Swick, R. (1999).
Resource Description Framework (RDF) Home Page
Froumentin, M. (2001).
The Extensible Stylesheet Language (XSL)
Karvounarakis, G.; Christophides, V. (2001).
The RDF Query Language (RQL)
Sarnes, C. (2000).
Entwurf und prototypische Realisierung eines Kunst-Informationssystems