8

我用 Apache Nutch 2.1 抓取了几个网站。

在抓取时,我在很多页面上看到以下消息:
例如。跳过http://www.domainname.com/news/subcategory/111111/index.html;不同的批次 ID(空)。

是什么导致了这个错误?
我该如何解决这个问题,因为具有不同批次 id (null) 的页面没有存储在数据库中。

我爬的网站是基于drupal的,但我尝试过许多其他非drupal网站。

4

1 回答 1

1

我认为,消息没有问题。batch_id 未分配给所有 url。因此,如果 batch_id 为 null ,请跳过 url。为 url 关联 batch_id 时生成 url。

于 2013-04-18T09:37:16.853 回答