问问题
284 次
1 回答
2
对于问题 #1:这五个文件夹究竟包含什么?
以下是nutch wiki 页面的详细信息:
爬网数据库或crawldb 。这包含有关 Nutch 已知的每个 URL 的信息,包括它是否被获取,如果是,何时获取。
链接数据库或linkdb 。这包含每个 URL 的已知链接列表,包括源 URL 和链接的锚文本。
一组段。每个段都是作为一个单元获取的一组 URL。段是具有以下子目录的目录:
- crawl_generate 命名一组要获取的 URL
- crawl_fetch 包含获取每个 URL 的状态
- 内容包含从每个 URL 检索到的原始内容
- 一个 parse_text 包含每个 URL 的解析文本
- parse_data 包含从每个 URL 解析的外链和元数据
- crawl_parse 包含外链 URL,用于更新 crawldb
index文件夹包含从爬取的内容和链接数据库创建的索引。
spellchecker:这是为改进查询而生成的拼写检查索引。如果您想了解更多关于它的知识,这和这值得一读。也看到这个。
对于问题 #2:“PageRank(或 LinkRank)”在哪里起作用?
对于问题 #3:Nutch 是否索引页面并且 solr 再次索引它们?
爬取数据的索引是由 Apache Solr 而不是 Nutch 生成的。
这是内部工作:Nutch 将解析中收集的所有数据委托给 IndexingFilter 扩展,该扩展生成要索引的数据。过滤器的输出是一个 NutchDocument,它再次被委托给 Nutch。Nutch 然后决定是否应该根据映射文件对数据进行索引,该映射文件定义了哪些 NutchDocument 字段将被映射到由 Nutch 读取的 SolrDocument 字段。
于 2012-04-21T19:27:06.520 回答