Crawl von spezifischen Produktgruppen auf Amazon

Status


Finished bachelor thesis

Student


  • Thomas Alber

Finished


2016 - 4

Formalia


Targeted audience
  • Komedia Bachelor
  • AI Bachelor
Preconditions
  • Programmierkenntnisse
  • Vorlesung IR und/oder ISM und/oder IE (hilfreich)
  • Fähigkeit im Lesen und Verstehen englischer wissenschaftlicher Publikationen (notwendig)

Task description


Im Rahmen des Praxisprojekts Konzeption und Implementierung einer Suchmaschine sind leistungsfähige Werkzeuge entwickelt worden, um große, online verfügbare Datenbestände abzurufen und durchsuchbar zu machen. Der Schwerpunkt lag dabei auf englischsprachigen Büchern.

Ziel dieser Arbeit soll es sein, die vorhandenen Programme und Verfahren so zu erweitern, dass auch weitere Produktgruppen abgerufen werden können. Dazu ist insbesondere für jede neue Gruppe mindestens ein Parser zu schreiben, da weder einheitliches Layout noch vergleichbare Metadaten vorliegen. Im Anschluss sollen die Daten durchsuchbar gemacht werden, z.B. mit Solr. Dazu ist ein geeignetes Schema zu entwerfen.

Im einzelnen umfasst die Bachelorarbeit insbesondere folgende Aspekte:

  • Einarbeitung in vorhandene Software
  • Entwicklung mehrerer Parser für bestimmte Produktgruppen
  • Durchführung der Crawls
  • Aufarbeitung und Indexierung