问题标签 [nutch]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1561 问题

0 投票

2 回答

5238 浏览

filesystems - 如何制作nutch爬取文件系统？

不基于http，

比如http://localhost:81等等，

而是直接爬取本地文件系统上的某个目录，

有什么出路吗？

2009-06-02T19:44:23.843

0 投票

1 回答

257 浏览

search - Nutch 搜索总是返回 0 个结果

我已经在集群上设置了 nutch 1.0。它已设置并已成功爬网，我使用 dfs -copyToLocal 复制了爬网目录，并将位于 tomcat 目录中的 nutch-site.xml 文件中的 searcher.dir 的值设置为指向该目录。仍然当我尝试搜索时，我收到 0 个结果。

任何帮助将不胜感激。

search tomcat hadoop nutch

darbour

2009-06-04T19:44:22.560

0 投票

1 回答

2320 浏览

nutch - Nutch 多线程

我正在尝试配置 nutch 以运行多线程爬行。

但是，我面临一个问题。我无法使用多个线程运行爬网，我已将 nutch-site.xml 修改为使用 25 个线程，但我仍然只能看到 1 个线程在运行。

我总是得到 activeThreads=25, spinWaiting=24, fetchQueues.totalSize=some value 的值。

这是什么意思，请您解释一下是什么问题以及如何解决。

我将非常感谢您的帮助。

谢谢，苏米特

nutch

2009-06-13T16:39:40.480

0 投票

2 回答

161 浏览

lucene - nutch 场问题

我正在使用类似的东西：

并且像“notdirectory:1”这样的查询可以一直很好地处理。

但最近我改变了“Field.Store.NO, Field.Index.UN_TOKENIZED”来索引一个非数字字符串：

并且像“state：irn_CA”这样的查询再也无法获取任何结果，即使我通过hadoop日志看到“irn_CA”实际上已添加到“state”字段中。

所以我怀疑满足“Field.Store.NO，Field.Index.UN_TOKENIZED”的字段，只有数字字段可以搜索，但我没有看到任何相关文档。

那么这其中的真正原因是什么呢？

lucene field nutch

2009-06-18T03:39:14.963

0 投票

2 回答

1921 浏览

nutch - RSS提要nutch

实际上我是 nutch 的新手。我想知道有什么方法可以抓取 rss 提要，然后自定义解析数据，以便索引可以从 rss 中设置不同的字段。比如假设 rss 提要在项目中有一个字段源。我想索引这个字段..

thanxx vibs

nutch

vibs

2009-07-07T10:22:52.080

0 投票

1 回答

1966 浏览

eclipse - Nutch 插件开发

nutch wiki 有关于如何构建 nutch 插件的说明，但前提是您下载整个 nutch 源代码树并将其放入 $NUTCH_HOME/src/plugin 下方。我不希望我的源代码混合在他们的颠覆树中，我希望它在我的 src/com/xcski git 存储库中。而且我不应该仅仅为了构建一个插件而下载 nutch 的源代码，我应该能够在我的 Eclipse 构建路径中粘贴一个 jar 并继续。

所以基本上，我正在寻找在我的 ant build.xml 文件中放入什么以及在 Eclipse 中放入什么来编写和构建我的插件。请记住，我是一个完全的蚂蚁新手。

eclipse ant plugins nutch

2009-07-31T15:51:11.507

0 投票

2 回答

1496 浏览

web-crawler - 为什么 Nutch 似乎不知道“Last-Modified”？

我设置 Nutch 的 db.fetch.interval.default 为 60000，这样我就可以每天爬行。如果我不这样做，它甚至不会在我第二天抓取时查看我的网站。但是当我第二天抓取时，它昨天获取的每个页面都会使用 200 响应代码获取，这表明它没有使用“If-Modified-Since”中的前一天的日期。它不应该跳过获取未更改的页面吗？有没有办法让它做到这一点？我注意到 Fetcher.java 中有一个 ProtocolStatus.NOT_MODIFIED，所以我认为它应该能够做到这一点，不是吗？

顺便说一句，这是从当前主干的 conf/nutch-default.xml 剪切和粘贴的：

web-crawler nutch

2009-08-09T21:05:55.913

0 投票

1 回答

1256 浏览

lucene - Nutch的插件系统是如何工作的？

我是 Nutch 的新手，但我知道 Nutch 使用 Lucene 进行索引，它只理解文本格式。

Nutch 有许多插件用于抓取特定格式的文档。

我的疑问是：Nutch的外挂系统究竟是怎么回事？

我看到了nutch的 Team wiki 页面

我想要一些信息，比如 Nutch 如何与 Lucene 一起工作。

lucene nutch

2009-09-19T10:56:45.233

0 投票

1 回答

1568 浏览

filesystems - 如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件

我想知道如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件

我可以使用 file:// 协议而不是 http 协议在本地文件系统上执行此操作

filesystems nutch web-crawler

user187252

2009-10-09T15:11:23.833

0 投票

4 回答

1691 浏览

php - 任何人都使用过 PHP API 来读取“Nutch 搜索引擎”的抓取结果？

我已经设置了“Nutch 搜索引擎”来抓取网站。现在，我需要编写一个 php API 来与 Nutch 搜索引擎对话。我需要做两件事：

使用 PHP 脚本，我需要向 Nutch 指定要抓取的 URL（为此，我有一些来自 http://www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2的指针.html
使用 PHP 脚本，我需要从 Nutch 抓取数据库中检索抓取结果。我似乎找不到任何帮助（或者如果答案已经存在，我可能太笨了，看不到答案:()

如果有人使用 PHP API 读取 Nutch 抓取结果，请与我分享一些指针。

绝望地等待一些帮助。

php nutch phpcrawl

2009-10-29T11:35:56.593

1 2 3 4 5 6 7 8 9 10

问题标签 [nutch]

Reference