Titel: xCrawl: a high-recall crawling method for Web mining
Kurzfassung: Web mining systems exploit the redundancy of data published on the Web to automatically extract information from existing Web documents. The first step in the Information Extraction process is thus to locate as many Web pages as possible that contain relevant information within a limited period of time, a task which is commonly accomplished by applying focused crawling techniques. The performance of such a crawler can be measured by its “recall”, i.e., the percentage of documents found and identified as relevant compared to the total number of existing documents. In this paper, we propose xCrawl, a new focused crawling method which outperforms state-of-the-art approaches with respect to the recall values achievable within a given period of time. This method is based on a new combination of ideas and techniques used to identify and exploit the navigational structures of Web sites, such as hierarchies, lists, or maps.
Publikationstyp: Beitrag in Zeitschrift (Autorenschaft)
Art der Veröffentlichung Printversion
Erschienen in: Journal Knowledge and Information Systems
Journal Knowledge and Information Systems
zur Publikation
 ( Springer Verlag GmbH; )
Erscheinungsdatum: 11.2010
Titel der Serie: -
Bandnummer: -
Heftnummer: -
Erstveröffentlichung: Ja
Seite: S. 303 - 326


ISSN: 0219-1377
DOI: -
AC-Nummer: -
Open Access
  • Kein Open-Access


Organisation Adresse
Fakultät für Technische Wissenschaften
Institut für Angewandte Informatik
Universitätsstr. 65-67
A-9020  Klagenfurt
zur Organisation
Universitätsstr. 65-67
AT - A-9020  Klagenfurt


  • 1108 - Informatik
Forschungscluster Kein Forschungscluster ausgewählt
  • n.a.
Informationen zum Zitationsindex: Master Journal List
Peer Reviewed
  • Ja
  • Science to Science (Qualitätsindikator: n.a.)
Klassifikationsraster der zugeordneten Organisationseinheiten:
Arbeitsgruppen Keine Arbeitsgruppe ausgewählt


Keine Kooperationspartner ausgewählt

Beiträge der Publikation

Keine verknüpften Publikationen vorhanden