Folie 18

Anfang
Zurück
Weiter
Ende

Index
Homepage

Die erste Komponent von Harvest ist die Gatherer Komponente. Der Gatherer bekommt einen URL mitgeteilt. Er sendet nun einen http-Request an den Server mit dem gegebenen URL und bekommt so das entsprechende Dokument aus dem WWW.

Befinden sich auf dem so erhaltenen Dokument z.B. der Homepage einer Zeitschrift nun weitere Links, so werden auch die Dokumente geholt, auf die verwiesen wird. Dieser rekursive Prozess wird fortgeführt. Die Rekursionstiefe und die Frage, ob wirklich allen Links nachgegangen wird, sind für jede Zeitschrift konfigurierbar.

In der ELib gibt es für jede nachgewiesenen Zeitschrift einen solchen Gatherer, der die Daten zunächst einsammelt.

Nach dem Einsammeln werden die Dokumente an die Essence Komponente weitergegeben. In dieser Komponente wird das Wortmaterial aus den Dokumenten extrahiert. Die Orginaldokumente werden anschließend wieder gelöscht.