Crawl von spezifischen Produktgruppen auf Amazon

Status


Abgeschlossene Bachelorarbeit

Bearbeiter


  • Thomas Alber

Abgabetermin


2016 - 4

Formalia


Zielgruppe
  • Komedia Bachelor
  • AI Bachelor
Voraussetzungen
  • Programmierkenntnisse
  • Vorlesung IR und/oder ISM und/oder IE (hilfreich)
  • Fähigkeit im Lesen und Verstehen englischer wissenschaftlicher Publikationen (notwendig)

Aufgabenstellung


Im Rahmen des Praxisprojekts Konzeption und Implementierung einer Suchmaschine sind leistungsfähige Werkzeuge entwickelt worden, um große, online verfügbare Datenbestände abzurufen und durchsuchbar zu machen. Der Schwerpunkt lag dabei auf englischsprachigen Büchern.

Ziel dieser Arbeit soll es sein, die vorhandenen Programme und Verfahren so zu erweitern, dass auch weitere Produktgruppen abgerufen werden können. Dazu ist insbesondere für jede neue Gruppe mindestens ein Parser zu schreiben, da weder einheitliches Layout noch vergleichbare Metadaten vorliegen. Im Anschluss sollen die Daten durchsuchbar gemacht werden, z.B. mit Solr. Dazu ist ein geeignetes Schema zu entwerfen.

Im einzelnen umfasst die Bachelorarbeit insbesondere folgende Aspekte:

  • Einarbeitung in vorhandene Software
  • Entwicklung mehrerer Parser für bestimmte Produktgruppen
  • Durchführung der Crawls
  • Aufarbeitung und Indexierung