0
4

1 回答 1

2

对于问题 #1:这五个文件夹究竟包含什么?

以下是nutch wiki 页面的详细信息:

爬网数据库或crawldb 。这包含有关 Nutch 已知的每个 URL 的信息,包括它是否被获取,如果是,何时获取。

链接数据库或linkdb 。这包含每个 URL 的已知链接列表,包括源 URL 和链接的锚文本。

组段。每个段都是作为一个单元获取的一组 URL。段是具有以下子目录的目录:

  1. crawl_generate 命名一组要获取的 URL
  2. crawl_fetch 包含获取每个 URL 的状态
  3. 内容包含从每个 URL 检索到的原始内容
  4. 一个 parse_text 包含每个 URL 的解析文本
  5. parse_data 包含从每个 URL 解析的外链和元数据
  6. crawl_parse 包含外链 URL,用于更新 crawldb

index文件夹包含从爬取的内容和链接数据库创建的索引。

spellchecker:这是为改进查询而生成的拼写检查索引。如果您想了解更多关于它的知识,这值得一读。也看到这个

对于问题 #2:“PageRank(或 LinkRank)”在哪里起作用?

阅读这个这个。不确定是否会有所帮助,但会增加您的知识。

对于问题 #3:Nutch 是否索引页面并且 solr 再次索引它们?

爬取数据的索引是由 Apache Solr 而不是 Nutch 生成的。

这是内部工作:Nutch 将解析中收集的所有数据委托给 IndexingFilter 扩展,该扩展生成要索引的数据。过滤器的输出是一个 NutchDocument,它再次被委托给 Nutch。Nutch 然后决定是否应该根据映射文件对数据进行索引,该映射文件定义了哪些 NutchDocument 字段将被映射到由 Nutch 读取的 SolrDocument 字段。

于 2012-04-21T19:27:06.520 回答