问题标签 [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1734 浏览

nutch - nutch + mysql 集成

当nutch在索引阶段完成它的循环(即抓取-获取-解析-索引)时,我不希望nutch索引(lucene索引),但我希望nutch放置所有爬取的数据(我相信他将它们保留为NutchDocument对象)使用我的代码进入 mysql。

有没有办法做到这一点?

谢谢

0 投票
1 回答
1622 浏览

solr - 如何在 Nutch 中抓取图像?

如何在 Nutch 中抓取图像?或者,是否有任何其他开放式搜索引擎可以生成带有图像的结果?

0 投票
1 回答
426 浏览

plugins - nutch 1.1 schema.xml

我最近下载了最新版本的 nutch。(nutch-1.1) 在浏览它的代码时,我注意到有一个 conf/schema.xml 文件定义了与 nutch 捆绑的 solr 部分的模式。

这个 schema.xml 包含每个插件的字段。我的问题是,我如何找出特定插件正在重新调整的值?换句话说,如果我使用带有 nutch 的第三方插件(比如插件 X)并想在 schema.xml 中添加几个字段,我如何确定“插件 X”返回的内容以及它是否是字符串、整数、数组?

我的第二个问题是,我看到了 nutch 的 solrIndexer 使用的 conf/solrindex-mapping.xml。这让我更加困惑,因为并非 schema.xml 中的所有字段都在 solrindex-mapping.xml

为了简单地解释答案,假设 Plugin X 是与 nutch 捆绑的 feed 插件。

0 投票
1 回答
428 浏览

indexing - 如何使用 Nutch 仅索引具有某些 URL 的页面?

我想让 nutch 抓取 abc.com,但我只想索引 car.abc.com。car.abc.com 链接可以在 abc.com 的任何级别。所以,基本上,我希望 nutch 保持正常抓取 abc.com,但只索引以 car.abc.com 开头的页面。例如 car.abc.com/toyota...car.abc.com/honda...

我将 regex-urlfilter.txt 设置为仅包含 car.abc.com 并运行命令“generate crawl/crawldb crawl/segments”,但它只是说“Generator: 0 records selected for fetching, exiting ...”。我猜 car.abc.com 链接只存在于几个层次。

这个怎么做?谢谢。

0 投票
1 回答
1026 浏览

java - 使用 Nutch 或 Heritrix 定向爬行

我见过 Nutch 和 Heritrix 的爬行方式。它们都具有生成/获取/更新周期的概念,这些周期从一些种子 URL 开始,并在获取步骤后迭代结果 URL。

范围/过滤逻辑适用于应用于提取的 URL 的正则表达式。

我想做一些非常具体的事情。我不想从页面中提取所有 url,但我宁愿根据一些 xpath 获取 url。原因是: - 并非所有网址都可以使用精确的正则表达式进行分类 - 我可能会错过一些超出给定 reg ex 的网址 - 我可能还想遵循“下一页”序列 - 特定的抓取周期可能具有不同的基于 xpath每个深度的过滤器。

有没有人对 Heritrix 的 Nutch 做过这样的事情?

谢谢奈恩

0 投票
1 回答
2952 浏览

java - 比较 Nutch 与 Heritrix

我想选择以上之一来为特定网站构建爬虫框架。这不是互联网范围内的爬网。我不是在建立搜索索引,而是对从网站上抓取特定页面感兴趣。

有人可以详细说明上述的利弊吗?谢谢奈恩

0 投票
1 回答
1642 浏览

java - 使用 Bixo 构建垂直爬虫

我遇到了一个开源爬虫Bixo。有人试过吗?可以分享一下学习吗?我们能否轻松构建定向爬虫(与 Nutch/Heritrix 相比)?谢谢奈恩

0 投票
1 回答
884 浏览

java - 我需要什么 Nutch 的 jar 来编写我自己的 Crawl.java

我正在尝试从 Nutch 编写我自己的 Crawl.java 版本,在那里我会做一些不同的事情。我不想使用 Nutch 源代码。我只想干净地导入一些罐子并开始使用我的应用程序。我应该如何提供 conf/crawl-urlfilter.txt 和其他所需的 conf 文件?

有人可以在这里帮助我吗?谢谢

0 投票
3 回答
263 浏览

lucene - 如何在 nutch-lucene 搜索引擎中添加“你的意思是”

我在将这个建议实施到我的孟加拉搜索引擎时遇到问题。任何人都可以帮助我吗?

0 投票
1 回答
471 浏览

javascript - 绕过 localhost 的身份验证以在 Etherpad 中实现搜索

我正在尝试在我的 Etherpad 安装中实现基于 Nutch + Solr 的搜索引擎。我遇到的主要问题是 Nutch 不支持POST身份验证。Etherpad 和 Nutch 安装在同一台机器上,因此一个明显的解决方案是找到绕过localhost.

这就是我卡住的地方。我不太了解 Etherpad 代码库,直到现在我大部分时间都在进行外观调整。

有人可以指出我应该寻找的地方或潜在的解决方案吗?我在代码库中发现了一些与 auth 相关的有趣代码,但它是 Javascript,因此没有明显的方法来检查请求主机是否为localhost.

编辑 :

我找到了处理身份验证策略的代码,并用一个简单的条件对其进行了测试,以便它始终返回true. 然后可以绕过身份验证。这给我留下了最初的问题:如何确定主机是否localhost使用 Javascript?