Benutzerspezifische Werkzeuge
Sie sind hier: Startseite Lexikon Technologische und methodische Grundlagen KI und Softcomputing Crawler (fokussiert / nicht fokussiert)

Crawler (fokussiert / nicht fokussiert)

Michaela Geierhos (unter Mitarbeit von Frederik S. Bäumer)

Ein Crawler ist eine Anwendungssoftware, die einen definierten, aber nicht zwangsläufig begrenzten Datenbestand systematisch hinsichtlich festgelegter Ziele und unter Zuhilfenahme konfigurierter Handlungsanweisungen ad infinitum verarbeitet.

Als (World Wide) Web Crawler (auch Spider, Search Bot, Internet Bot oder Robot) wird ein Tool bezeichnet, dessen anvisierter Datenbestand sich aus Inhalten (auch: Ressourcen) des WWW ergibt. Die Absichten hinter Web Crawling sind dabei divers: Während globale Suchmaschinen die vollständige Indizierung bestehender Web-Ressourcen anstreben (engl. general crawling oder auch nicht-fokussierte Crawler), beschränken sogenannte fokussierte Crawler die Ergebnisse hinsichtlich vorgegebener Kriterien (engl. topic specific Web resource discovery). Dies kann beispielsweise eine bestimmte Sprache, eine Top Level Domain, ein Themengebiet oder die Relevanz hinsichtlich eines Informationsbedürfnisses sein.

Der erste bekannte Web Crawler, der World Wide Web Wanderer (1993), diente der statistischen Erfassung des Webs hinsichtlich seines strukturellen Wachstums (engl. webometrics). Demgegenüber stehen Web Crawler, die sich mehrheitlich mit der Akquise von Informationen beschäftigen. Das Vorgehen hat sich dabei in den letzten 20 Jahren stetig weiterentwickelt. Grundsätzlich basiert es aber auf demselben Prinzip, webbasierte Inhalte (HTML), ausgehend von mindestens einem Startpunkt (engl. Seed), herunterzuladen, iterativ weiterzuverarbeiten und strukturiert abzuspeichern. Dabei sind Crawler in der Lage, autark weitere Web Pages zu identifizieren, diese in ihre Warteschlange (Queue) aufzunehmen sowie deren Hyperlinks zu folgen. Eine Sonderform der Web Crawler sind Harvester. Diese durchsuchen das WWW nach E-Mail-Adressen und speichern sie ab. Auf diese Weisen werden Adressbestände aufgebaut, die später vermarktet werden, um Werbe-E-Mails zu versenden.

Beim nicht-fokussierten Crawlen gibt es traditionellerweise zwei  Strategien: Das (1) Depth-first crawling und das Breadth-first crawling. Beides sind Graph-basierte Verfahren und basieren auf Seeds, die zuvor manuell ausgewählt wurden. Während (1) immer zuerst den ersten Hyperlink einer Ressource bis zum tiefsten Knoten (keine weiteren Links) verfolgt, werden bei (2) zunächst alle Hyperlinks aufgerufen, die vom Seed erreichbar sind.

Thematisch fokussierte Crawler weichen von diesen ineffizienten Strategien ab, da die Herausforderung in der Identifikation von relevanten Informationen unter minimalem Ressourceneinsatz und hinsichtlich optimaler Performance liegt. Dabei spielen die Relevanzurteile eine wichtige Rolle, welche Indizien (Eigenschaften einer Webressource) weitere Berücksichtigung finden (z.B. Länderzugehörigkeit, Sprache oder Top Level Domain). Um diesen Prozess zu optimieren, bewerten Web Crawler die Relevanzwahrscheinlichkeit einer Ressource noch vor deren Download. Dazu bedienen sich die Entwickler Hilfsmitteln wie Webkatalogen und Hyperlinkstrukturen sowie Methoden zur Themenexploration (engl. Topic detection) und Textklassifikation.

Aus der technischen Perspektive stellt das wiederholte Aufrufen von Ressourcen Anfragen dar, die seitens eines Servers zu beantworten sind. Es wird von flooding gesprochen, wenn die Anzahl dieser Anfragen ein verträgliches Maß überschreiten und die Performance des Servers negativ beeinflussen. Parallelisierung (Distributed web crawling) verschärfen das Problem. 

Literatur

Castillo C. (2004): EFFECTIVE WEB CRAWLING. Dissertation. University of Chile, Chile. Dept. of Computer Science.

Ganguly, B.; Sheikh, R. (2012): A Review of Focussed Web Crawling Strategies. In: International Journal of Advanced Computer Research 2012 (2,4).

Heydon, A.; Najork, M. (1999): Mercator: A scalable, extensible Web crawler. In: World Wide Web 2 (4), S. 219–229. DOI: 10.1023/A:1019213109274.

Koster, M. (2007): A Standard for Robot Exclusion. Online verfügbar unter http://www.robotstxt.org/orig.html, zuletzt geprüft am 13.07.2014.

Lewandowski, D. (2005): Web Information Retrieval. Technologien zur Informationssuche im Internet. Frankfurt am Main: DGI (Reihe Informationswissenschaft der DGI, Bd. 7).

Medelyan, O.; Schulz, S.; Paetzold, J.; Poprat, M.; Markó, K. (2006): Language specific and topic focused web crawling. In: Proceedings of the Language Resources Conference LREC.

Menczer, F.; Pant, G.; Srinivasan, P. (2004): Topical web crawlers. In: ACM Trans. Inter. Tech. 4 (4), S. 378–419. DOI: 10.1145/1031114.1031117.

Novak, B. (2004): A survey of focused web crawling algorithms, zuletzt geprüft am 13.07.2014.

Nunes, S. (2006): State of the art in web information retrieval. Technical Report, FEUP.

Autor


 

Jun.-Prof. Dr. Michaela Geierhos, Universität Paderborn, Heinz-Nixdorf-Institut, Wirtschaftsinformatik, insb. CIM, Fürstenallee 11, 33102 Paderborn

Autoreninfo


 

Zuletzt bearbeitet: 12.12.2016 15:31
Letzter Abruf: 23.03.2017 15:20
Artikelaktionen