solr - 集成 Nutch1.4 和 Solr 时的输出究竟是什么？

Question

score 2 · Accepted Answer

对于问题 #1：这五个文件夹究竟包含什么？

以下是nutch wiki 页面的详细信息：

爬网数据库或crawldb 。这包含有关 Nutch 已知的每个 URL 的信息，包括它是否被获取，如果是，何时获取。

链接数据库或linkdb 。这包含每个 URL 的已知链接列表，包括源 URL 和链接的锚文本。

一组段。每个段都是作为一个单元获取的一组 URL。段是具有以下子目录的目录：

crawl_generate 命名一组要获取的 URL
crawl_fetch 包含获取每个 URL 的状态
内容包含从每个 URL 检索到的原始内容
一个 parse_text 包含每个 URL 的解析文本
parse_data 包含从每个 URL 解析的外链和元数据
crawl_parse 包含外链 URL，用于更新 crawldb

index文件夹包含从爬取的内容和链接数据库创建的索引。

spellchecker：这是为改进查询而生成的拼写检查索引。如果您想了解更多关于它的知识，这和这值得一读。也看到这个。

对于问题 #2：“PageRank（或 LinkRank）”在哪里起作用？

阅读这个和这个。不确定这是否会有所帮助，但会增加您的知识。

对于问题 #3：Nutch 是否索引页面并且 solr 再次索引它们？

爬取数据的索引是由 Apache Solr 而不是 Nutch 生成的。

这是内部工作：Nutch 将解析中收集的所有数据委托给 IndexingFilter 扩展，该扩展生成要索引的数据。过滤器的输出是一个 NutchDocument，它再次被委托给 Nutch。Nutch 然后决定是否应该根据映射文件对数据进行索引，该映射文件定义了哪些 NutchDocument 字段将被映射到由 Nutch 读取的 SolrDocument 字段。

solr - 集成 Nutch1.4 和 Solr 时的输出究竟是什么？

1 回答 1

对于问题 #1：这五个文件夹究竟包含什么？

对于问题 #2：“PageRank（或 LinkRank）”在哪里起作用？

对于问题 #3：Nutch 是否索引页面并且 solr 再次索引它们？

Related

Reference