问题标签 [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
356 浏览

java - Java CSS 爬虫

我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。

我正在尝试通过 Xapian、Nutch 和 Heritrix。它们似乎都有点复杂。如果有人有任何经验或建议,我很想听听。也欢迎提供上述任何平台的可访问教程。

大卫

0 投票
2 回答
2099 浏览

nutch - 关于使用 nutch 抓取短网址

我正在为我的应用程序使用 nutch 爬虫,它需要爬取一组我提供给urls目录的 URL,并且只获取该 URL 的内容。我对内部或外部链接的内容不感兴趣。所以我使用了 NUTCH 爬虫并通过将深度设为 1 来运行爬虫命令。

Nutch 抓取 url 并给我给定 url 的内容。

我正在使用 readseg 实用程序阅读内容。

有了这个,我正在获取网页的内容。

我面临的问题是,如果我提供直接网址,例如

然后我就可以获取网页的内容了。但是当我将 URL 集作为短 URL 给出时

我无法获取内容。

当我阅读这些片段时,它没有显示任何内容。请在下面找到从段中读取的转储文件的内容。

我还尝试将 nutch-default.xml 中的 max.redirects 属性设置为 4,但找不到任何进展。请为我提供此问题的解决方案。

谢谢和问候, 阿琼·库马尔·雷迪

0 投票
1 回答
1041 浏览

java - 我的 nutch 重新抓取脚本有什么问题

你好,我正在使用这个脚本来重新抓取我的 nutch,但它给出了一个例外..

脚本

得到这个http://wiki.apache.org/nutch/NutchTutorial

任何人都可以告诉我什么是错的......

0 投票
2 回答
286 浏览

java - nutch 爬行器正在爬行 ' 作为 â€

nutch 爬行者let's像你一样爬行Let’s???是否有任何设置可以更改此字符集..

0 投票
6 回答
6232 浏览

nutch - 如何在 Nutch 中加快爬行速度

我正在尝试开发一个应用程序,在该应用程序中,我将为 Nutch 中的 urls 文件提供一组受限的 url。我可以通过从段中读取数据来抓取这些 url 并获取它们的内容。

我通过给出深度 1 进行了爬网,因为我不关心网页中的外链或内链。我只需要 urls 文件中的网页内容。

但执行此爬网需要时间。所以,建议我减少爬行时间并提高爬行速度的方法。我也不需要索引,因为我不关心搜索部分。

有没有人有关于如何加快爬行的建议?

0 投票
1 回答
254 浏览

nutch - nutch 中的停用词和同义词

是否有任何选项可以在 nutch crawler 中配置停用词和同义词

类似的东西`

0 投票
1 回答
214 浏览

solr - Nutch 即时查询

我是 nutch 和 solr 的新手。Solr 比 Nutch 相对更新 :)

过去两周我一直在使用 nutch,我想知道我是否可以动态查询或搜索我的 nutch 爬行(在完成之前)。我之所以这么问,是因为我正在抓取的网站非常庞大,完成一次抓取大约需要 3-4 天。我想在 nutch 爬虫仍在爬取 URL 时分析一些快速结果。有人建议我 Solr 将使它成为可能。

为此,我按照http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/中的步骤进行操作。我看到 Solr 搜索中只显示了注入的 URL。我知道我做了一些非常愚蠢的事情,而爬行从未发生过,我觉得我在这里遗漏了一些信息。但我做了链接中提到的所有步骤。我认为在这个过程中的某个地方应该有一个爬行发生并且错过了。

只是想看看是否有人可以帮助我指出这一点以及我在此过程中出错的地方。原谅我的愚蠢,感谢您的耐心。

干杯,阿比

0 投票
2 回答
2036 浏览

solr - Apache Nutch 不会索引整个网站,只会索引子文件夹

Apache Nutch 1.2 不索引整个网站,只索引子文件夹。我的索引页面在我网站的大多数区域/子文件夹中提供链接。例如东西,学生,研究......但nutch只在一个特定的文件夹中爬行 - 在这种情况下是“学生”。似乎没有遵循其他目录中的链接。

crawl-urlfilter.txt: +^http://www5.my-domain.de/

URLs 文件夹中的 seed.txt: http ://www5.my-domain.de/

开始 nutch (windows/linux 都使用): nutch crawl "D:\Programme\nutch-1.2\URLs" -dir "D:\Programme\nutch-1.2\crawl" -depth 10 -topN 1000000

测试了 depth(5-23) 和 topN(100-1000000) 的不同变体。在 seed.txt 中提供更多链接根本没有帮助,仍然没有关注在注入页面中找到的链接。

有趣的是,抓取 gnu.org 非常完美。没有 robots.txt 或阻止在我的网站中使用元标记。

有任何想法吗?

0 投票
1 回答
1003 浏览

java - 将 Nutch 编译成一个 Jar 文件(并运行它)的过程是什么?

我正在尝试以一种可以通过一个包含所有依赖项的 JAR 文件访问其所有功能的方式运行 Nutch 爬虫。

例如,

并在稍后阶段,用 hadoop 调用它。

目前,做一个

在 nutch 目录中存在的 JAR 文件上会导致错误,

我相信这是因为这个特定的 JAR 不包含清单 XML 文件或其他依赖的 JAR。为此,您会推荐什么作为将 nutch 构建到一个 JAR 中的最佳方法?

谢谢!

0 投票
4 回答
6176 浏览

nutch - 如何从 nutch 获取 html 内容

有什么方法可以在抓取网页的同时获取每个网页的 html 内容吗?