问题标签 [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5238 浏览

filesystems - 如何制作nutch爬取文件系统?

不基于http,

比如http://localhost:81等等,

而是直接爬取本地文件系统上的某个目录,

有什么出路吗?

0 投票
1 回答
257 浏览

search - Nutch 搜索总是返回 0 个结果

我已经在集群上设置了 nutch 1.0。它已设置并已成功爬网,我使用 dfs -copyToLocal 复制了爬网目录,并将位于 tomcat 目录中的 nutch-site.xml 文件中的 searcher.dir 的值设置为指向该目录。仍然当我尝试搜索时,我收到 0 个结果。

任何帮助将不胜感激。

0 投票
1 回答
2320 浏览

nutch - Nutch 多线程

我正在尝试配置 nutch 以运行多线程爬行。

但是,我面临一个问题。我无法使用多个线程运行爬网,我已将 nutch-site.xml 修改为使用 25 个线程,但我仍然只能看到 1 个线程在运行。

我总是得到 activeThreads=25, spinWaiting=24, fetchQueues.totalSize=some value 的值。

这是什么意思,请您解释一下是什么问题以及如何解决。

我将非常感谢您的帮助。

谢谢, 苏米特

0 投票
2 回答
161 浏览

lucene - nutch 场问题

我正在使用类似的东西:

并且像“notdirectory:1”这样的查询可以一直很好地处理。

但最近我改变了“Field.Store.NO, Field.Index.UN_TOKENIZED”来索引一个非数字字符串:

并且像“state:irn_CA”这样的查询再也无法获取任何结果,即使我通过hadoop日志看到“irn_CA”实际上已添加到“state”字段中。

所以我怀疑满足“Field.Store.NO,Field.Index.UN_TOKENIZED”的字段,只有数字字段可以搜索,但我没有看到任何相关文档。

那么这其中的真正原因是什么呢?

0 投票
2 回答
1921 浏览

nutch - RSS提要nutch

实际上我是 nutch 的新手。我想知道有什么方法可以抓取 rss 提要,然后自定义解析数据,以便索引可以从 rss 中设置不同的字段。比如假设 rss 提要在项目中有一个字段源。我想索引这个字段..

thanxx vibs

0 投票
1 回答
1966 浏览

eclipse - Nutch 插件开发

nutch wiki 有关于如何构建 nutch 插件的说明,但前提是您下载整个 nutch 源代码树并将其放入 $NUTCH_HOME/src/plugin 下方。我不希望我的源代码混合在他们的颠覆树中,我希望它在我的 src/com/xcski git 存储库中。而且我不应该仅仅为了构建一个插件而下载 nutch 的源代码,我应该能够在我的 Eclipse 构建路径中粘贴一个 jar 并继续。

所以基本上,我正在寻找在我的 ant build.xml 文件中放入什么以及在 Eclipse 中放入什么来编写和构建我的插件。请记住,我是一个完全的蚂蚁新手。

0 投票
2 回答
1496 浏览

web-crawler - 为什么 Nutch 似乎不知道“Last-Modified”?

我设置 Nutch 的 db.fetch.interval.default 为 60000,这样我就可以每天爬行。如果我不这样做,它甚至不会在我第二天抓取时查看我的网站。但是当我第二天抓取时,它昨天获取的每个页面都会使用 200 响应代码获取,这表明它没有使用“If-Modified-Since”中的前一天的日期。它不应该跳过获取未更改的页面吗?有没有办法让它做到这一点?我注意到 Fetcher.java 中有一个 ProtocolStatus.NOT_MODIFIED,所以我认为它应该能够做到这一点,不是吗?

顺便说一句,这是从当前主干的 conf/nutch-default.xml 剪切和粘贴的:

0 投票
1 回答
1256 浏览

lucene - Nutch的插件系统是如何工作的?

我是 Nutch 的新手,但我知道 Nutch 使用 Lucene 进行索引,它只理解文本格式。

Nutch 有许多插件用于抓取特定格式的文档。

我的疑问是:Nutch的外挂系统究竟是怎么回事?

我看到了nutch的 Team wiki 页面

我想要一些信息,比如 Nutch 如何与 Lucene 一起工作。

0 投票
1 回答
1568 浏览

filesystems - 如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件

我想知道如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件

我可以使用 file:// 协议而不是 http 协议在本地文件系统上执行此操作

0 投票
4 回答
1691 浏览

php - 任何人都使用过 PHP API 来读取“Nutch 搜索引擎”的抓取结果?

我已经设置了“Nutch 搜索引擎”来抓取网站。现在,我需要编写一个 php API 来与 Nutch 搜索引擎对话。我需要做两件事:

  1. 使用 PHP 脚本,我需要向 Nutch 指定要抓取的 URL(为此,我有一些来自 http://www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2的指针.html

  2. 使用 PHP 脚本,我需要从 Nutch 抓取数据库中检索抓取结果。我似乎找不到任何帮助(或者如果答案已经存在,我可能太笨了,看不到答案:()

如果有人使用 PHP API 读取 Nutch 抓取结果,请与我分享一些指针。

绝望地等待一些帮助。