Stammdaten

xCrawl: a high-recall crawling method for Web mining
Untertitel:
Kurzfassung: Web mining systems exploit the redundancy of data published on the Web to automatically extract information from existing Web documents. The first step in the Information Extraction process is thus to locate as many Web pages as possible that contain relevant information within a limited period of time, a task which is commonly accomplished by applying focused crawling techniques. The performance of such a crawler can be measured by its “recall”, i.e., the percentage of documents found and identified as relevant compared to the total number of existing documents. In this paper, we propose xCrawl, a new focused crawling method which outperforms state-of-the-art approaches with respect to the recall values achievable within a given period of time. This method is based on a new combination of ideas and techniques used to identify and exploit the navigational structures of Web sites, such as hierarchies, lists, or maps.
Schlagworte:
Publikationstyp: Beitrag in Zeitschrift (Autorenschaft)
Art der Veröffentlichung Printversion
Erschienen in: Journal Knowledge and Information Systems
Journal Knowledge and Information Systems
zur Publikation
 ( Springer Verlag GmbH; )
Erscheinungdatum: 11.2010
Titel der Serie: -
Bandnummer: -
Heftnummer: -
Erstveröffentlichung: Ja
Seite: S. 303 - 326

Identifikatoren

ISBN: -
ISSN: 0219-1377
DOI: -
AC-Nummer: -
Homepage:
Open Access
  • Kein Open-Access

Zuordnung

Organisation Adresse
Fakultät für Technische Wissenschaften
 
Institut für Angewandte Informatik
Universitätsstr. 65-67
A-9020  Klagenfurt
Österreich
  -993705
   ainf@aau.at
https://www.aau.at/angewandte-informatik/
zur Organisation
Universitätsstr. 65-67
AT - A-9020  Klagenfurt

Kategorisierung

Sachgebiete
  • 1108 - Informatik
Forschungscluster Kein Forschungscluster ausgewählt
Zitationsindex
  • n.a.
Informationen zum Zitationsindex: Thomson Reuters Master Journal List
Peer Reviewed
  • Ja
Publikationsfokus
  • Science to Science (Qualitätsindikator: n.a.)
Klassifikationsraster der zugeordneten Organisationseinheiten:
Arbeitsgruppen Keine Arbeitsgruppe ausgewählt

Kooperationen

Keine Kooperationspartner ausgewählt

Beiträge der Publikation

Keine verknüpften Publikationen vorhanden