1

我用 Apache Nutch 2.1 抓取了几个网站。

在抓取时,我在很多页面上看到以下消息:例如。跳过http://videos.arte.tv/fr/videos/x-enius--7453284.html;不同的批次 id (null)

是什么导致了这个错误?正在解析阶段......我该如何解决这个问题,我使用 HBase 来存储页面。

我在 regex-urlfilter.txt 中的网址看起来像

  • +^http://([a-z0-9]*.)*videos.arte.tv/
  • +^http://([a-z0-9]*.)*rbb-online.de/

但我也尝试过同样的效果

编辑:它被邮件列表的维护者添加到跟踪,如错误,你可以在这里阅读http://lucene.472066.n3.nabble.com/Nutch-2-1-different-batch-id-null-td4040592.html #a4059636

4

1 回答 1

0

我认为,消息没有问题。batch_id 未分配给所有 url。因此,如果 batch_id 为 null ,请跳过 url。为 url 关联 batch_id 时生成 url。

这里有一个类似的问题。

于 2013-04-27T23:23:49.900 回答