Nutch 有几个状态码,用于对抓取的文档进行分类。
Nutch 使用的代码示例如下:
db_unfetched
db_fetched
db_gone
db_redir_perm
db_redir_temp
db_notmodified
我在哪里可以找到代码含义的明确解释?
在 Stackoverflow 上阅读论坛帖子和回答者可以很好地理解代码。这个页面也提供了一些很好的输入:http ://wiki.apache.org/nutch/CrawlDatumStates但我正在寻找一个描述每个状态代码含义的页面。