Crawl von spezifischen Produktgruppen auf Amazon
Status
Finished bachelor thesis
Student
- Thomas Alber
Finished
2016
-
Formalia
- Targeted audience
-
- Komedia Bachelor
- AI Bachelor
- Preconditions
-
- Programmierkenntnisse
- Vorlesung IR und/oder ISM und/oder IE (hilfreich)
- Fähigkeit im Lesen und Verstehen englischer wissenschaftlicher Publikationen (notwendig)
Task description
Im Rahmen des Praxisprojekts Konzeption und Implementierung einer Suchmaschine sind leistungsfähige Werkzeuge entwickelt worden, um große, online verfügbare Datenbestände abzurufen und durchsuchbar zu machen. Der Schwerpunkt lag dabei auf englischsprachigen Büchern.
Ziel dieser Arbeit soll es sein, die vorhandenen Programme und Verfahren so zu erweitern, dass auch weitere Produktgruppen abgerufen werden können. Dazu ist insbesondere für jede neue Gruppe mindestens ein Parser zu schreiben, da weder einheitliches Layout noch vergleichbare Metadaten vorliegen. Im Anschluss sollen die Daten durchsuchbar gemacht werden, z.B. mit Solr. Dazu ist ein geeignetes Schema zu entwerfen.
Im einzelnen umfasst die Bachelorarbeit insbesondere folgende Aspekte:
- Einarbeitung in vorhandene Software
- Entwicklung mehrerer Parser für bestimmte Produktgruppen
- Durchführung der Crawls
- Aufarbeitung und Indexierung