问题标签 [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - Nutch 搜索总是返回 0 个结果
我已经在集群上设置了 nutch 1.0。它已设置并已成功爬网,我使用 dfs -copyToLocal 复制了爬网目录,并将位于 tomcat 目录中的 nutch-site.xml 文件中的 searcher.dir 的值设置为指向该目录。仍然当我尝试搜索时,我收到 0 个结果。
任何帮助将不胜感激。
nutch - Nutch 多线程
我正在尝试配置 nutch 以运行多线程爬行。
但是,我面临一个问题。我无法使用多个线程运行爬网,我已将 nutch-site.xml 修改为使用 25 个线程,但我仍然只能看到 1 个线程在运行。
我总是得到 activeThreads=25, spinWaiting=24, fetchQueues.totalSize=some value 的值。
这是什么意思,请您解释一下是什么问题以及如何解决。
我将非常感谢您的帮助。
谢谢, 苏米特
lucene - nutch 场问题
我正在使用类似的东西:
并且像“notdirectory:1”这样的查询可以一直很好地处理。
但最近我改变了“Field.Store.NO, Field.Index.UN_TOKENIZED”来索引一个非数字字符串:
并且像“state:irn_CA”这样的查询再也无法获取任何结果,即使我通过hadoop日志看到“irn_CA”实际上已添加到“state”字段中。
所以我怀疑满足“Field.Store.NO,Field.Index.UN_TOKENIZED”的字段,只有数字字段可以搜索,但我没有看到任何相关文档。
那么这其中的真正原因是什么呢?
nutch - RSS提要nutch
实际上我是 nutch 的新手。我想知道有什么方法可以抓取 rss 提要,然后自定义解析数据,以便索引可以从 rss 中设置不同的字段。比如假设 rss 提要在项目中有一个字段源。我想索引这个字段..
thanxx vibs
eclipse - Nutch 插件开发
nutch wiki 有关于如何构建 nutch 插件的说明,但前提是您下载整个 nutch 源代码树并将其放入 $NUTCH_HOME/src/plugin 下方。我不希望我的源代码混合在他们的颠覆树中,我希望它在我的 src/com/xcski git 存储库中。而且我不应该仅仅为了构建一个插件而下载 nutch 的源代码,我应该能够在我的 Eclipse 构建路径中粘贴一个 jar 并继续。
所以基本上,我正在寻找在我的 ant build.xml 文件中放入什么以及在 Eclipse 中放入什么来编写和构建我的插件。请记住,我是一个完全的蚂蚁新手。
web-crawler - 为什么 Nutch 似乎不知道“Last-Modified”?
我设置 Nutch 的 db.fetch.interval.default 为 60000,这样我就可以每天爬行。如果我不这样做,它甚至不会在我第二天抓取时查看我的网站。但是当我第二天抓取时,它昨天获取的每个页面都会使用 200 响应代码获取,这表明它没有使用“If-Modified-Since”中的前一天的日期。它不应该跳过获取未更改的页面吗?有没有办法让它做到这一点?我注意到 Fetcher.java 中有一个 ProtocolStatus.NOT_MODIFIED,所以我认为它应该能够做到这一点,不是吗?
顺便说一句,这是从当前主干的 conf/nutch-default.xml 剪切和粘贴的:
lucene - Nutch的插件系统是如何工作的?
我是 Nutch 的新手,但我知道 Nutch 使用 Lucene 进行索引,它只理解文本格式。
Nutch 有许多插件用于抓取特定格式的文档。
我的疑问是:Nutch的外挂系统究竟是怎么回事?
我看到了nutch的 Team wiki 页面
我想要一些信息,比如 Nutch 如何与 Lucene 一起工作。
filesystems - 如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件
我想知道如何使用 http 协议使用 Nutch-1.0 抓取互联网上提供的 pdf 文件
我可以使用 file:// 协议而不是 http 协议在本地文件系统上执行此操作
php - 任何人都使用过 PHP API 来读取“Nutch 搜索引擎”的抓取结果?
我已经设置了“Nutch 搜索引擎”来抓取网站。现在,我需要编写一个 php API 来与 Nutch 搜索引擎对话。我需要做两件事:
使用 PHP 脚本,我需要向 Nutch 指定要抓取的 URL(为此,我有一些来自 http://www.cs.sjsu.edu/faculty/pollett/masters/Semesters/Fall07/sheetal/?Deliverable2的指针.html
使用 PHP 脚本,我需要从 Nutch 抓取数据库中检索抓取结果。我似乎找不到任何帮助(或者如果答案已经存在,我可能太笨了,看不到答案:()
如果有人使用 PHP API 读取 Nutch 抓取结果,请与我分享一些指针。
绝望地等待一些帮助。