web-crawler - 使用 Jena 库的 Java 中链接数据的 Web 爬虫

翻译自：https://stackoverflow.com/questions/12570936 2012-09-24T18:42:23.917

1172 次

1

我必须实现一个访问 Web 上的链接数据的 Web Cralwer。我为此构建了一个简单的功能。我对此有三个疑问：

我应该使用什么种子 URI。以 RDF 格式提供数据并遵循 Tim Berners Lee链接数据原则的网站？
一般来说，Web-Cralwers 的基于回合的方法是什么意思？我阅读了有关一般网络爬虫的信息，发现应该遵循基于循环的方法。
我只能解析可以返回 RDF/XML 数据的网页。是否足以抓取链接数据。

1 回答 1

5

有几个选项，例如使用在Billion Triples Challenge 转储中找到的所有 URI作为起点，或者使用 Data Hub 上 lodcloud 组中列出的所有资源（可以通过CKAN API检索）。
对不起，我不知道。
不，RDF/XML 是不够的，因为许多作为链接数据发布的数据集使用其他格式。您还需要Turtle和RDFa。您可以使用Apache Any23，它了解以上所有内容。LDSpider是一个使用 Any23 的爬虫。

于 2012-09-24T22:25:08.097 回答