我用 Apache Nutch 2.1 抓取了几个网站。
在抓取时,我在很多页面上看到以下消息:例如。跳过http://videos.arte.tv/fr/videos/x-enius--7453284.html;不同的批次 id (null)
是什么导致了这个错误?正在解析阶段......我该如何解决这个问题,我使用 HBase 来存储页面。
我在 regex-urlfilter.txt 中的网址看起来像
- +^http://([a-z0-9]*.)*videos.arte.tv/
- +^http://([a-z0-9]*.)*rbb-online.de/
但我也尝试过同样的效果
编辑:它被邮件列表的维护者添加到跟踪,如错误,你可以在这里阅读http://lucene.472066.n3.nabble.com/Nutch-2-1-different-batch-id-null-td4040592.html #a4059636