问题标签 [nutch]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1561 问题

0 投票

1 回答

1734 浏览

nutch - nutch + mysql 集成

当nutch在索引阶段完成它的循环（即抓取-获取-解析-索引）时，我不希望nutch索引（lucene索引），但我希望nutch放置所有爬取的数据（我相信他将它们保留为NutchDocument对象）使用我的代码进入 mysql。

有没有办法做到这一点？

谢谢

nutch

2010-07-12T09:29:52.137

0 投票

1 回答

1622 浏览

solr - 如何在 Nutch 中抓取图像？

如何在 Nutch 中抓取图像？或者，是否有任何其他开放式搜索引擎可以生成带有图像的结果？

solr nutch

2010-07-14T15:12:33.100

0 投票

1 回答

426 浏览

plugins - nutch 1.1 schema.xml

我最近下载了最新版本的 nutch。(nutch-1.1) 在浏览它的代码时，我注意到有一个 conf/schema.xml 文件定义了与 nutch 捆绑的 solr 部分的模式。

这个 schema.xml 包含每个插件的字段。我的问题是，我如何找出特定插件正在重新调整的值？换句话说，如果我使用带有 nutch 的第三方插件（比如插件 X）并想在 schema.xml 中添加几个字段，我如何确定“插件 X”返回的内容以及它是否是字符串、整数、数组?

我的第二个问题是，我看到了 nutch 的 solrIndexer 使用的 conf/solrindex-mapping.xml。这让我更加困惑，因为并非 schema.xml 中的所有字段都在 solrindex-mapping.xml

为了简单地解释答案，假设 Plugin X 是与 nutch 捆绑的 feed 插件。

plugins nutch

2010-07-15T06:24:36.453

0 投票

1 回答

428 浏览

indexing - 如何使用 Nutch 仅索引具有某些 URL 的页面？

我想让 nutch 抓取 abc.com，但我只想索引 car.abc.com。car.abc.com 链接可以在 abc.com 的任何级别。所以，基本上，我希望 nutch 保持正常抓取 abc.com，但只索引以 car.abc.com 开头的页面。例如 car.abc.com/toyota...car.abc.com/honda...

我将 regex-urlfilter.txt 设置为仅包含 car.abc.com 并运行命令“generate crawl/crawldb crawl/segments”，但它只是说“Generator: 0 records selected for fetching, exiting ...”。我猜 car.abc.com 链接只存在于几个层次。

这个怎么做？谢谢。

indexing nutch restrict url

2010-07-15T07:53:06.593

0 投票

1 回答

1026 浏览

java - 使用 Nutch 或 Heritrix 定向爬行

我见过 Nutch 和 Heritrix 的爬行方式。它们都具有生成/获取/更新周期的概念，这些周期从一些种子 URL 开始，并在获取步骤后迭代结果 URL。

范围/过滤逻辑适用于应用于提取的 URL 的正则表达式。

我想做一些非常具体的事情。我不想从页面中提取所有 url，但我宁愿根据一些 xpath 获取 url。原因是： - 并非所有网址都可以使用精确的正则表达式进行分类 - 我可能会错过一些超出给定 reg ex 的网址 - 我可能还想遵循“下一页”序列 - 特定的抓取周期可能具有不同的基于 xpath每个深度的过滤器。

有没有人对 Heritrix 的 Nutch 做过这样的事情？

谢谢奈恩

java nutch

2010-07-15T11:01:17.540

0 投票

1 回答

2952 浏览

java - 比较 Nutch 与 Heritrix

我想选择以上之一来为特定网站构建爬虫框架。这不是互联网范围内的爬网。我不是在建立搜索索引，而是对从网站上抓取特定页面感兴趣。

有人可以详细说明上述的利弊吗？谢谢奈恩

java web-crawler nutch

2010-07-16T07:30:46.717

0 投票

1 回答

1642 浏览

java - 使用 Bixo 构建垂直爬虫

我遇到了一个开源爬虫Bixo。有人试过吗？可以分享一下学习吗？我们能否轻松构建定向爬虫（与 Nutch/Heritrix 相比）？谢谢奈恩

java web-crawler nutch

2010-07-18T18:56:06.150

0 投票

1 回答

884 浏览

java - 我需要什么 Nutch 的 jar 来编写我自己的 Crawl.java

我正在尝试从 Nutch 编写我自己的 Crawl.java 版本，在那里我会做一些不同的事情。我不想使用 Nutch 源代码。我只想干净地导入一些罐子并开始使用我的应用程序。我应该如何提供 conf/crawl-urlfilter.txt 和其他所需的 conf 文件？

有人可以在这里帮助我吗？谢谢

java nutch

2010-07-22T14:40:21.363

0 投票

3 回答

263 浏览

lucene - 如何在 nutch-lucene 搜索引擎中添加“你的意思是”

我在将这个建议实施到我的孟加拉搜索引擎时遇到问题。任何人都可以帮助我吗？

lucene nutch

2010-07-27T16:42:17.703

0 投票

1 回答

471 浏览

javascript - 绕过 localhost 的身份验证以在 Etherpad 中实现搜索

我正在尝试在我的 Etherpad 安装中实现基于 Nutch + Solr 的搜索引擎。我遇到的主要问题是 Nutch 不支持POST身份验证。Etherpad 和 Nutch 安装在同一台机器上，因此一个明显的解决方案是找到绕过localhost.

这就是我卡住的地方。我不太了解 Etherpad 代码库，直到现在我大部分时间都在进行外观调整。

有人可以指出我应该寻找的地方或潜在的解决方案吗？我在代码库中发现了一些与 auth 相关的有趣代码，但它是 Javascript，因此没有明显的方法来检查请求主机是否为localhost.

编辑：

我找到了处理身份验证策略的代码，并用一个简单的条件对其进行了测试，以便它始终返回true. 然后可以绕过身份验证。这给我留下了最初的问题：如何确定主机是否localhost使用 Javascript？

javascript authentication solr nutch etherpad

2010-08-05T10:06:20.897

1 2 3 4 5 6 7 8 9 10

问题标签 [nutch]

Reference