1

我必须实现一个访问 Web 上的链接数据的 Web Cralwer。我为此构建了一个简单的功能。我对此有三个疑问:

  1. 我应该使用什么种子 URI。以 RDF 格式提供数据并遵循 Tim Berners Lee链接数据原则的网站?
  2. 一般来说,Web-Cralwers 的基于回合的方法是什么意思?我阅读了有关一般网络爬虫的信息,发现应该遵循基于循环的方法。
  3. 我只能解析可以返回 RDF/XML 数据的网页。是否足以抓取链接数据。
4

1 回答 1

5
  1. 有几个选项,例如使用在Billion Triples Challenge 转储中找到的所有 URI作为起点,或者使用 Data Hub 上 lodcloud 组中列出的所有资源(可以通过CKAN API检索)。
  2. 对不起,我不知道。
  3. 不,RDF/XML 是不够的,因为许多作为链接数据发布的数据集使用其他格式。您还需要TurtleRDFa。您可以使用Apache Any23,它了解以上所有内容。LDSpider是一个使用 Any23 的爬虫。
于 2012-09-24T22:25:08.097 回答