我用 Apache Nutch 2.1 抓取了几个网站。
在抓取时,我在很多页面上看到以下消息:
例如。跳过http://www.domainname.com/news/subcategory/111111/index.html;不同的批次 ID(空)。
是什么导致了这个错误?
我该如何解决这个问题,因为具有不同批次 id (null) 的页面没有存储在数据库中。
我爬的网站是基于drupal的,但我尝试过许多其他非drupal网站。
我用 Apache Nutch 2.1 抓取了几个网站。
在抓取时,我在很多页面上看到以下消息:
例如。跳过http://www.domainname.com/news/subcategory/111111/index.html;不同的批次 ID(空)。
是什么导致了这个错误?
我该如何解决这个问题,因为具有不同批次 id (null) 的页面没有存储在数据库中。
我爬的网站是基于drupal的,但我尝试过许多其他非drupal网站。