问题标签 [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
214 浏览

hadoop - 同时处理与主机的多个连接

如何同时处理与主机的多个连接?

0 投票
1 回答
2097 浏览

lucene - Nutch - 如何通过小补丁爬行?

我无法让 Nutch 为我爬行一小块。我通过带有参数 -depth 7 和 -topN 10000的bin/nutch crawl命令启动它。它永远不会结束。仅在我的 HDD 为空时结束。我需要做什么:

  1. 开始爬取我的种子,有可能在外链上走得更远。
  2. 抓取 20000 页,然后将它们编入索引。
  3. 抓取另外 20000 页,将它们编入索引并与第一个索引合并。
  4. 循环步骤 3 n 次。

也尝试了在 wiki 中找到的脚本,但我发现的所有脚本都没有更进一步。如果我再次运行它们,它们会从头开始做所有事情。在脚本结束时,我有相同的索引,当我开始爬行时。但是,我需要继续爬行。

0 投票
1 回答
322 浏览

parsing - 如何在抓取时解析(仅文本)网站

我可以在 windows xp 上通过 cygwin 成功运行爬虫命令。我也可以通过使用tomcat进行网络搜索。

但我也想在抓取事件期间保存解析的页面

所以当我开始像这样爬行时

bin/nutch 抓取网址 -dir 已抓取 -depth 3

我还想将解析的 html 文件保存到文本文件

我的意思是在我开始使用上述命令的这段时间

nutch 获取页面时,它还会自动将该页面解析(仅文本)保存到文本文件

这些文件名可以获取 url

我真的需要帮助

这将用于我的大学语言检测项目

0 投票
1 回答
226 浏览

java - 如何开发 Nutch 以获得更好的阿拉伯语搜索技术?

我是一名计算机科学专业的学生,​​正在从事一个基于 Nutch 搜索引擎的项目。我想开发 Java 算法来更好地索引和搜索阿拉伯语网站。我该如何为此目的进行优化,有什么想法吗?

0 投票
1 回答
5421 浏览

solr - Nutch versus Solr

Currently collecting information where I should use Nutch with Solr (domain - vertical web search).

Could you suggest me?

0 投票
3 回答
1380 浏览

web-applications - 在不使用 bin/nutch 的情况下从 Java Web 应用程序中爬取网站

我正在尝试使用我的 (java) mojarra 2.0.2 webapp 中没有 bin/nutch 的 nutch (1.1) ...我正在谷歌搜索示例,但没有示例如何实现这一点:/ ...我得到一个异常并且工作失败:/(我想到了hadoop的原因)......这是我的代码:

和日志记录的一部分:

有人可以帮助我或告诉我如何从 Java 应用程序中爬取吗?我已将 Xms 增加到 256m 和 Xmx 到 768m,但没有任何改变......

最好的问候马塞尔

0 投票
2 回答
1093 浏览

hadoop - 哪个 Linux 发行版最适合 Nutch-Hadoop?

我们正在尝试找出最适合 Nutch-Hadoop 集成的 Linux 发行版?我们计划使用集群通过 Nutch 抓取大量内容。让我知道您是否需要对此问题进行更多说明?

谢谢。

0 投票
2 回答
426 浏览

nutch - 用种子抓取的 Nutch 网址在范围内

有些网站有 url模式www.___.com/id=1www.___.com/id=1000如何使用 nutch 抓取网站。有没有什么方法可以提供种子以在范围内获取?

0 投票
1 回答
191 浏览

java - Nutch 1.0 中的拼写检查器

谁能告诉我如何在 nutch 1.0 中实现拼写检查?

0 投票
1 回答
308 浏览

web-crawler - Getting nutch to prioritize frequently updated pages?

Is there a way to get Nutch to increase the crawling of pages that gets updated frequently?

E.g. index pages and feeds.

It would also be of value to refresh fresh pages that contains comments more frequently the first date after the page was created. Any tips are appreciated.