Internet-Suchmaschinen
Formalia
- Zielgruppe
- Angewandte Informatik Bachelor: Schwerpunkt Medieninformatik (ursprünglicher Name: "Einführung in Information Retrieval")
- Komedia Bachelor
Termine
Vorlesung
Tag | Zeit | Ort |
Dienstag | 12:00 - 13:30 | LF/035 |
Übungen
Tag | Zeit | Beginn | Ort | Betreuer |
Freitag | 10:15 - 11:00 | LE/120 | Dr.-Ing. Dipl.-Inform. Vu Tran |
Prüfungstermine
Mündliche Prüfung
Zeitraum | Ort |
---|---|
14.09.2015 - 18.09.2015 | LF/135 |
Die Einzeltermine werden nach Ablauf der Rücktrittsfrist
(1 Woche) hier auf der Webseite bekanntgegeben.
Sollten Sie an einzelnen Tagen des o.g. Prüfungszeitraums verhindert
sein, senden Sie bitte eine Mail an unsere Sekretärin Fr. Ufermann. Dabei beachten Sie bitte folgende Hinweise:
- Melden Sie sich bitte frühestens 4 Wochen vorher (sonst melden sich viele, die die Prüfung dann doch nicht machen) und spätestens am 30.8.
- Da voraussichtlich die Prüfungen nur von Dienstag-Donnerstag stattfinden, können Wünsche für Montag oder Freitag nicht berücksichtigt werden.
- Sie sollten an mindestens einem dieser 3 Tage ganztägig verfügbar sein. Wenn Sie nur an einem halben Tag können, werden wir uns bemühen, können aber nichts versprechen.
- Wenn Sie zu 2 Prüfungen angemeldet sind, werden diese immer an einem Termin abgehandelt.
- Wenn Sie in diesem Zeitraum gar nicht können, werden wir einen Sondertermin ausmachen. Nur in diesem Fall senden Sie bitte eine Email direkt an Prof. Fuhr, aber nicht vor dem 1.7.
Beschreibung
Internet-Suchmaschinen sind heute die zentrale Anlaufstelle für viele tägliche Informationsbedürfnisse. Neben den generellen Web-Suchmaschinen (z.B. Google, Bing, Yahoo!, Yandex) gibt es auch zahlreiche spezialisierte Suchmaschinen für bestimmte Objekte (z.B. News, Bilder, Videos, Personen, Firmen, Shopping, wiss Publikationen, Bücher). Ferner kommt heute kaum ein Online-Angebot ohne Suchmaschine aus - seien es Online-Shops, News Sites, Medienangebote, Firmenauftritte oder soziale Medien. In kleinerem Maßstab sind solche Systeme als Bestandteil von Hilfesystemen, im Wissensmanagement oder für die unternehmensinterne Suche (Enterprise Search) unverzichtbar.
In dieser Vorlesung werden Modelle und Methoden für die inhaltsorientierte Suche im Web und anderen Dokumentenbeständen vorgestellt. In der Übung werden die theoretischen Konzepte anhand von Beispielen vertieft und kleine praktische Aufgaben am Rechner durchgeführt. Das Praktikum beschäftigt sich mit der Konfiguration, Anwendung und Evaluierung von Suchmaschinen.
Inhalt:
- Basiskonzepte (Informationskompetenz, Vagheit und Unsicherheit, Daten-Information-Wissen)
- Repräsentation von Textinhalten (Freitextsuche, Klassifikationen, Ontologien)
- Modelle (Boolesches und Fuzzy-Retrieval, Vektorraummodell, Probabilistisches Retrieval, Web-spezifische Modelle)
- Evaluierung (Effektivität; Relevanz; Metriken für Booleschem Retrieval; Evaluierung von linearen Rangordnungen)
- Interaktives Retrieval (Information Seeking Behavior; Information Search; Systemfunktionalität; Benutzeroberflächen)
Vorlesungsmaterial
Außer den Folienkopien wird noch ein Skriptum herausgegeben. Daneben sind folgende Bücher/Skripten empfehlenswert:
- Empfohlene IR-Bücher aus unserer LibraryThing-Sammlung
- Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval. Cambridge University Press, 2008.
- Bruce Croft, Donald Metzler, Trevor Strohman: Search Engines: Information Retrieval in Practice. Addison-Wesley, 2009.
- R. Baeza-Yates, B. Ribeiro-Neto: Modern Information Retrieval: The Concepts and Technology Behind Search. ACM Press Books.
- Stefan Büttcher, Charles L. A. Clarke, Gordon V. Cormack: Information Retrieval: Implementing and Evaluating Search Engines. MIT Press, 2010
- Marti A. Hearst: Search User Interfaces. Cambridge University Press. (2009)
- Reginald Ferber: Data Mining und Information Retrieval. dpunkt Verlag .
- C. J. van Rijsbergen: Information Retrieval (HTML-Version des Buches von 1979, aber immer noch lesenswert)
- Einige weitere IR-Bücher und -Skripte sind hier verlinkt
Skriptum
(Das Skriptum deckt den Vorlesungsstoff mit
Ausnahme der letzten beiden
Kapitel ab, die
nur als Folien verfügbar sind.)
Skript
Kapitel 1-7
'Link-Analyse' ist in Kapitel 21 des Buches Introduction to Information Retrieval beschrieben
Folien
- Überblick über das Lehrangebot des Fachgebiets
- Einführung Folien Handout
- Repräsentation von Textinhalten Folien Handout
- Nicht-probabilistische Modelle Folien Handout
- Probabilistische Modelle Folien Handout
- Evaluierung Folien Handout
- Neuere probabilistische Modelle (ohne Quantum PRP) Folien Handout
- Link-Analyse für die Web-Suche: lokale Kopie der Folien von Hinrich Schütze
- Interaktives Retrieval Folien Handout
- Benutzeroberflächen Folien Handout
Prüfungsfragen: Beispiele
Links
Übungen
An dieser Stelle werden wöchentlich die Übungsaufgaben zum Download bereitgestellt.
- Übungsblatt 1 – Informationskompetenz
- Übungsblatt 2 – Wissensrepräsentation 1
- Übungsblatt 3 – Wissensrepräsentation 2
- Übungsblatt 4 – Nicht-probabilistische Modelle
- Übungsblatt 5 – Probabilistische Modelle
- Übungsblatt 6 – Evaluierung 1
- Übungsblatt 7 – Evaluierung 2
- Übungsblatt 8 – Neuere probabilistische Modelle 1
- Übungsblatt 9 – Neuere probabilistische Modelle 2
- Übungsblatt 10 – Link-Analyse
- Übungsblatt 11 – Interaktives IR
Praktikum
- Das Bestehen des Praktikums ist Voraussetzung für die Klausur.
- Die Bearbeitung der Praktikums-Aufgaben kann in Einzelarbeit oder in Zweiergruppen erfolgen.
Aufgaben
Tutorial
- Das 1. Tutorial zum Praktikum findet am 08.05 um 11 Uhr im LF 230 statt. Bitte das Aufgabenblatt vorher durchlesen und die nötigen Materialien bzw. Software vorher herunterladen.
- Das 2. Tutorial zum Praktikum findet am 15.05 um 11 Uhr im LF 230 statt.
Materialien
- CLEF-Kollektion – Teil der CLEF-Kollektion für Aufgaben 1 und 2
- Die Topics (Aufgaben) – Teil der CLEF-Kollektion für Aufgaben 1 und 2
- Relevanzurteile – Teil der CLEF-Kollektion für Aufgaben 1 und 2
- TRECEval – Tool für Aufgabe 2 (Original-Version in C)
- MiniTRECEval
– Tool für Aufgabe 2 (Version in Java 1.7+ – Aufruf:
java -jar eval-tools.jar
)