问题标签 [nutch]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1561 问题

0 投票

5 回答

9487 浏览

search-engine - Nutch 的替代网络爬虫

我正在尝试建立一个专门的搜索引擎网站，它索引有限数量的网站。我想出的解决方案是：

使用 Nutch 作为网络爬虫，
使用 Solr 作为搜索引擎，
前端和站点逻辑使用 Wicket 进行编码。

问题是我发现 Nutch 相当复杂，而且它是一个需要定制的大软件，尽管不存在详细的文档（书籍、最近的教程等）。

现在的问题：

对网站的漏洞理念有任何建设性的批评吗？
Nutch（作为网站的爬行部分）是否有一个很好但简单的替代方案？

谢谢

2010-11-24T17:24:06.317

0 投票

1 回答

598 浏览

nutch - 如何使 nutch 履带式爬行

当我使用 wiki 时，我对 nutch 有一些疑问，我被要求编辑crawl-urlfilter.txt

我被要求创建一个 url 文件夹和一个 url 列表...

我需要在crawl-urlfilter.txturl 列表中和列表中创建所有链接吗？

nutch

2010-11-27T09:58:50.883

0 投票

1 回答

128 浏览

java - 如何在 nutch 中按主机进行搜索结果分组

我正在做一个小型的 Intranet 搜索我使用 nutch 进行爬网和搜索我有子域，例如

如果我使用 nutch 搜索某个值，我会从所有域中获取搜索结果，我需要每个子域一个结果

java nutch

2010-11-27T13:44:29.787

0 投票

1 回答

108 浏览

solr - 需要插件覆盖默认标题

我正在尝试基于http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html为 Nutch 编写一个插件，以获取自定义标题查找器。

这很好用，并且在新字段中存储提取的标题是没有问题的。但我想在 Solr 中使用它而不是默认标题。问题是 Solr 需要多值字段，因为我有 2 个标题字段。

metadata.remove("标题");

没用。

我真的很想使用新标题而不是 Nutch 创建的默认标题。有什么建议么？

solr nutch

2010-11-27T22:04:16.807

0 投票

1 回答

2133 浏览

java - Nutch API 建议

我正在做一个项目，我需要一个成熟的爬虫来做一些工作，为此我正在评估 Nutch。我当前的需求相对简单：我需要一个能够将数据保存到磁盘的爬虫，并且我需要它能够仅重新爬取站点的更新资源并跳过已经爬取的部分。有没有人有任何直接在 Java 中使用 Nutch 代码的经验，而不是通过命令行。我想从简单的开始：创建一个爬虫（或类似的），最低限度地配置它并启动它，没什么特别的。有没有一些例子，或者我应该看一些资源？我正在阅读 Nutch 文档，但其中大部分是关于命令行、搜索和其他内容的。无需索引和搜索的 Nutch 爬行模块的可用性如何？任何帮助表示赞赏。谢谢。

java web-crawler nutch

2010-12-02T21:37:40.937

0 投票

5 回答

4528 浏览