问题标签 [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
9487 浏览

search-engine - Nutch 的替代网络爬虫

我正在尝试建立一个专门的搜索引擎网站,它索引有限数量的网站。我想出的解决方案是:

  • 使用 Nutch 作为网络爬虫,
  • 使用 Solr 作为搜索引擎,
  • 前端和站点逻辑使用 Wicket 进行编码。

问题是我发现 Nutch 相当复杂,而且它是一个需要定制的大软件,尽管不存在详细的文档(书籍、最近的教程等)。

现在的问题:

  1. 对网站的漏洞理念有任何建设性的批评吗?
  2. Nutch(作为网站的爬行部分)是否有一个很好但简单的替代方案?

谢谢

0 投票
1 回答
598 浏览

nutch - 如何使 nutch 履带式爬行

当我使用 wiki 时,我对 nutch 有一些疑问,我被要求编辑crawl-urlfilter.txt

我被要求创建一个 url 文件夹和一个 url 列表...

我需要在crawl-urlfilter.txturl 列表中和列表中创建所有链接吗?

0 投票
1 回答
128 浏览

java - 如何在 nutch 中按主机进行搜索结果分组

我正在做一个小型的 Intranet 搜索我使用 nutch 进行爬网和搜索我有子域,例如

如果我使用 nutch 搜索某个值,我会从所有域中获取搜索结果,我需要每个子域一个结果

0 投票
1 回答
108 浏览

solr - 需要插件覆盖默认标题

我正在尝试基于http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html为 Nutch 编写一个插件,以获取自定义标题查找器。

这很好用,并且在新字段中存储提取的标题是没有问题的。但我想在 Solr 中使用它而不是默认标题。问题是 Solr 需要多值字段,因为我有 2 个标题字段。

metadata.remove("标题");

没用。

我真的很想使用新标题而不是 Nutch 创建的默认标题。有什么建议么?

0 投票
1 回答
2133 浏览

java - Nutch API 建议

我正在做一个项目,我需要一个成熟的爬虫来做一些工作,为此我正在评估 Nutch。我当前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫,并且我需要它能够仅重新爬取站点的更新资源并跳过已经爬取的部分。有没有人有任何直接在 Java 中使用 Nutch 代码的经验,而不是通过命令行。我想从简单的开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没什么特别的。有没有一些例子,或者我应该看一些资源?我正在阅读 Nutch 文档,但其中大部分是关于命令行、搜索和其他内容的。无需索引和搜索的 Nutch 爬行模块的可用性如何?任何帮助表示赞赏。谢谢。

0 投票
5 回答
4528 浏览

java - Nutch 问题:java.lang.NoClassDefFoundError

我正在尝试在我的 Windows 机器上运行 Nutch。我安装了 Nutch、Java、Tomcat 和 Cygwin。当我尝试在 Cygwin 中运行 crawl 命令时,我收到以下错误:

我的 Java 有点生疏,但这似乎告诉我Crawl该类不存在。如果是这种情况,我该如何找到它——并确保我的系统知道它的存在?

0 投票
1 回答
800 浏览

lucene - Nutch - Lucene - 捕获页面内容

我已经用 Java Nutch 爬了几页我还用 Java 中的 Lucene 制作了一个模块,它允许对索引文档执行查询。我知道我创建了像 url、重量和标题这样的 Nutch 字段。但我对捕捉每一页的内容很感兴趣。我如何使用 Lucene 并知道我已经用 nutch 爬行了?

谢谢

0 投票
7 回答
13214 浏览

algorithm - Web Cralwer 算法:深度?

我正在研究爬虫,需要准确理解“链接深度”的含义。以 nutch 为例:http ://wiki.apache.org/nutch/NutchTutorial

depth 表示应该爬取的根页面的链接深度。

所以,假设我有域www.domain.com并且想要爬到某个深度,比如说,3我需要做什么?如果一个站点可以表示为二叉树,那么我认为这不是问题。

0 投票
2 回答
448 浏览

windows - 无法从 Windows 上的 Tomcat webapp 运行 nutch

我有一个网络应用程序,它产生一个运行 Nutch 爬行的脚本。一切都很好,除了现在我的客户希望它在 Windows PC 上运行。她给我的 Windows PC 运行的是 Windows 7 Home Premium。

我几乎所有东西都在运行,除了爬网脚本 - 当它启动 nutch 时,nutch(运行 Hadoop,由于某种奇怪的原因导致 a whoami)失败,因为whoami返回“nt authority\system”而不是单个字符串。错误:

javax.security.auth.login.LoginException:登录失败:期望一个令牌作为 whoami 的结果:nt authority\system

在这种情况下,有什么方法可以更改 whoami 返回的名称吗?

更新:澄清一下,当我从命令行运行完全相同的脚本时,它运行良好。问题是 Tomcat 作为服务运行,所以它生成的脚本作为这个“nt authority\system”用户运行,这让 hadoop 感到困惑,因为它显然希望whoami返回一个单词,而不是由空格分隔的两个单词.

0 投票
1 回答
1814 浏览

google-app-engine - 在谷歌应用引擎上为选定的网站运行网络爬虫?

我需要编写一个爬虫来仅从几个预先选择的网站中提取一些信息。

我知道这是一项直接的工作,但我正在考虑使用谷歌应用引擎来完成这项工作。

也许我可以尝试 Nutch 为我做这件事。

这种完成它的方法有多可行?

1)在谷歌基础设施上托管一个爬虫 2)Nutch + 应用程序引擎——这可能吗?