问题标签 [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
1986 浏览

.net - Java Lucene 与 .Net 的集成

我有 nutch 和 lucene 设置来抓取和索引一些网站,我想使用 .net 网站而不是 nutch 附带的 JSP 网站。

谁能推荐一些解决方案?

我已经看到了在索引服务器上运行的应用程序的解决方案,.Net 站点使用远程连接连接到该应用程序。

速度显然是一个考虑因素,所以这仍然可以表现良好吗?

编辑: NHibernate.Search 可以为此工作吗?

编辑:我们最终选择了我们的 ASP.net 站点使用的 Solr 索引服务器和solrnet库。

0 投票
3 回答
10656 浏览

lucene - 在 Solr 中使用 Nutch 爬虫

我能否将 Apache Nutch 爬虫与 Solr 索引服务器集成?

编辑:

我们的一位开发人员从这些帖子中想出了一个解决方案

  1. 运行 Nutch 和 Solr
  2. 运行 Nutch 和 Solr 的更新

回答

是的

0 投票
10 回答
8556 浏览

lucene - 我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?

我们公司有数千份PDF文件。我们如何使用 Lucene、Solr 或 Nutch 创建一个简单的搜索引擎?我们将提供一个基本的 Java/JSP 网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配 PDF 的文档链接。

0 投票
1 回答
1056 浏览

apache - Apache Nutch 的性能基准测试

我想知道基于 apache nutch 的搜索引擎部署是否有任何现有的基准和大小信息。我想知道每月进行 1000 万次搜索,需要部署的硬件大小应该是多少。

0 投票
2 回答
2809 浏览

windows - Windows 上的 Apache Nutch

有没有人尝试在 Windows 上安装 Nutch?我正在遵循此安装指南:http: //zillionics.com/resources/articles/NutchGuideForDummies.htm

经过几次颠簸后,我被困在试图运行爬虫。它给了我这个错误:

bin/nutch:第 15 行:意外标记 '$'in\r'''in/nutch 附近的语法错误:第 15 行:'case "'uname'" in

显然我需要在 cygwin 中安装 uname 实用程序,但我无法在任何地方找到它。有谁知道它在哪个包中,或者是否有其他方法可以解决这个问题?

0 投票
3 回答
5242 浏览

java - 在 Tomcat 上运行 Java .war 时出现问题

我正在关注这里的教程:

http://nutch.sourceforge.net/docs/en/tutorial.html

爬行工作正常,从命令行进行测试搜索也是如此。

当我在将 ROOT.war 移动到位后尝试启动 Tomcat 时(它在启动期间取消归档并创建一个新的 ROOT 文件夹),我得到一个页面,其中包含 500 错误和 Tomcat 日志中的一些错误。

HTTP 状态 500 - 没有配置上下文来处理此请求

所以看起来错误的根源是默认的 web.xml,而不是在 Log4JLogger 中——尽管我对 Java 知之甚少。我没有在 tomcat 目录中编辑 web.xml。

有人知道这里发生了什么吗?

版本/信息:

纽扣 0.9

雄猫 4.1

jre1.5.0_08

jdk1.6.0_12

NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.6.0_12

JAVA_HOME=C:\Program Files\Java\jdk1.6.0_12

0 投票
2 回答
1824 浏览

indexing - 更新 Nutch 指数的最佳方法是什么?

我已经有一年左右没有看过 Nutch 了,看起来它已经发生了很大的变化。关于重新抓取的文档不清楚。更新现有 Nutch 索引的最佳方法是什么?

0 投票
1 回答
2173 浏览

html-parsing - 使用 nutch 1.0 和自定义插件解析 html 数据

我目前正在尝试为 nutch 1.0 编写一个自定义插件。这个插件应该解析 html 数据并从文档中过滤掉相关信息。我有一个基本插件工作,它扩展了 HtmlParserResult 对象,并且每次我进行解析时都会执行。

我目前面临两个问题:

  1. 我不太了解 nutch 解析的工作流程/管道。我在 nutch 网站上找不到有关此的信息。

  2. 我不明白 DOM 解析是如何完成的,我看到 Nutch 有一组 DOM 对象,并且 HtmlParser 插件进行了一些 DOM 解析,但我仍然没有弄清楚如何最好地完成。

0 投票
3 回答
11289 浏览

web-services - 聚合器是如何构建的?

假设我想从许多来源(可能是旅行、技术或其他)汇总与特定利基相关的信息。我该怎么做?

有一个蜘蛛/爬虫会爬网以找到我需要的信息(我如何告诉爬虫爬什么,因为我不想获取整个网络?)?然后有一个索引系统来索引和组织我爬取的信息,同时也是一个搜索引擎?

像 Nutch lucene.apache.org/nutch 这样的系统可以用于我想要的吗?你推荐别的东西吗?

或者你能推荐另一种方法吗?

例如,Techmeme.com 是如何建立的?(它是技术新闻的聚合器,并且是完全自动化的——直到最近他们才增加了一些人工干预)。建立这样的服务需要什么?

或者 Kayak.com 如何汇总他们的数据?(这是一个旅游聚合服务。)

0 投票
3 回答
431 浏览

search - 如何用 nutch 进行 OR 搜索?

比如说,搜索字段为“A”或“B”的结果?

似乎默认值是 AND。