问题标签 [nutch]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1561 问题

0 投票

2 回答

301 浏览

search-engine - Nutch 是什么？

我要制作自己的搜索引擎。

在搜索搜索引擎、爬虫等时，我对Nutch感到困惑。

我不明白 Nutch 是什么。是供内部使用，如 Lucene（如果我错了，请纠正我）还是用于创建搜索引擎的框架（例如：google、bing、yahoo）？

search-engine nutch

2010-12-16T19:21:34.913

0 投票

2 回答

579 浏览

java - 空 Nutch 爬网列表

我正在尝试在 Eclipse 中使用 Nutch 进行爬网。

我正在使用一个名为 urls 的文件，它包含

http://www.google.com/

但是，当我运行项目时，生成器类告诉我：

“选择了 0 条记录进行提取，退出”

我该如何解决这个问题？

我遵循了这些文档：

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

http://wiki.apache.org/nutch/NutchTutorial

任何帮助将不胜感激。

2010-12-18T19:51:28.860

0 投票

0 回答

1031 浏览

java - How can I download pictures using Nutch?

How can I download pictures using Nutch (in Eclipse)?

java eclipse image download nutch

2010-12-18T19:53:04.867

0 投票

2 回答

347 浏览

java - 哪些 java 类与这些 nutch 命令相关联？

我有以下一起批处理的命令。它运行 Nutch 并将结果发送到 Solr。我已经读到这些与我想用来以编程方式运行的 Java 方法相匹配。

这些与哪些 Java 类匹配？

谢谢

java solr nutch

2010-12-22T16:01:11.600

0 投票

3 回答

916 浏览

cassandra - 网络爬虫，ruby，python，cassandra

我需要编写一个脚本，通过爬网将 100 万条用户名或电子邮件记录插入数据库。脚本可以是任何类型，如 python、ruby、php 等。

请让我知道是否可能？如果可能，请提供如何构建脚本的信息。

谢谢

cassandra web-crawler nutch gora

2010-12-27T09:16:29.693

0 投票

1 回答

218 浏览

solr - SOLR & NUTCH如何制作子引擎？

问候所有我正在使用像谷歌这样的模板制作搜索引擎，其中包含新闻子引擎和图像子引擎和视频子引擎，我想知道如何使用 SOLR 和 NUTCH 制作子引擎我对他们真的很陌生，不要不知道怎么做，所以请指教。

solr nutch

2010-12-29T14:58:51.450

0 投票

2 回答

1234 浏览

wget - 快速重新抓取网站

我正在开发一个系统，该系统必须跟踪少数门户网站的内容并每晚检查更改（例如下载和索引白天添加的新站点）。此门户的内容将被编入索引以供搜索。问题在于重新抓取此门户网站 - 首次抓取门户网站需要很长时间（门户网站示例：www.onet.pl、www.bankier.pl、www.gazeta.pl），我想更快地重新抓取它（尽可能快）例如通过检查修改日期，但我使用了wget下载 www.bankier.pl 但作为回应，它抱怨没有最后修改标题。有没有办法重新抓取这么多网站？我也尝试过使用 Nutch，但用于重新抓取的脚本似乎无法正常工作 - 或者它也取决于此标头（最后修改）。也许有一种工具，爬虫（如 Nutch 之类的）可以通过添加新站点来更新已下载的站点？

最好的问候， Wojtek

wget web-crawler nutch

2011-01-06T18:46:17.403

0 投票

1 回答

462 浏览

hadoop - 在 HDFS 中写入元数据

我们正在使用 nutch 来抓取我们的 Intranet 站点。

我们在 xml 文件中提取元数据，在索引阶段（我们修改了 indexer.java 的代码），当在本地模式下运行时，它为我们提供了所需的元数据。

现在，我们想到了在集群模式下使用nutch（使用hadoop），当我们在集群中爬取nutch时，我们能够获取索引而不是我们以前获取的元数据，在本地模式下我们使用（java的IO类到将元写入文件）。对于 hadoop，我们已将其更改为 hadoop 文件系统 io 类。然而，我们无法获得元数据。

有什么解决方案，还是我们遗漏了什么？

提前致谢，地理

hadoop nutch indexer

2011-01-07T11:52:21.030

0 投票

2 回答

3225 浏览

django - 使用 Django 构建搜索引擎的建议

我是网络爬虫的新手。我将构建一个搜索引擎，让爬虫保存 Rapidshare 链接，包括 Rapidshare 链接找到的 URL……

换句话说，我要建立一个类似的网站filestube.com

经过一番搜索，我发现Scrapy可以与 Django 一起使用。我试图找到关于 nutch 与 Django 的集成，但什么也没找到

我希望你能给我建立这种网站的建议……尤其是爬虫

django search-engine nutch scrapy

2011-01-07T15:05:31.787

0 投票

3 回答

2050 浏览

java - 将 MySQL 连接到 Apache nutch

我第一次使用 Apache Nutch。爬取后如何将数据存储到 MySQL 数据库中？我希望能够轻松地在其他 Web 应用程序中使用这些数据。

我发现了一个相关的问题，但我不清楚代码 id 的哪一部分将被 MySQL 连接器替换。请帮助提供一个简短的代码示例。

java mysql nutch

2011-01-12T20:36:23.663

1 2 3 4 5 6 7 8 9 10

问题标签 [nutch]

Reference