我必须实现一个访问 Web 上的链接数据的 Web Cralwer。我为此构建了一个简单的功能。我对此有三个疑问:
- 我应该使用什么种子 URI。以 RDF 格式提供数据并遵循 Tim Berners Lee链接数据原则的网站?
- 一般来说,Web-Cralwers 的基于回合的方法是什么意思?我阅读了有关一般网络爬虫的信息,发现应该遵循基于循环的方法。
- 我只能解析可以返回 RDF/XML 数据的网页。是否足以抓取链接数据。
我必须实现一个访问 Web 上的链接数据的 Web Cralwer。我为此构建了一个简单的功能。我对此有三个疑问: