问题标签 [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search-engine - Nutch 是什么?
我要制作自己的搜索引擎。
在搜索搜索引擎、爬虫等时,我对Nutch感到困惑。
我不明白 Nutch 是什么。是供内部使用,如 Lucene(如果我错了,请纠正我)还是用于创建搜索引擎的框架(例如:google、bing、yahoo)?
java - 空 Nutch 爬网列表
我正在尝试在 Eclipse 中使用 Nutch 进行爬网。
我正在使用一个名为 urls 的文件,它包含
但是,当我运行项目时,生成器类告诉我:
“选择了 0 条记录进行提取,退出”
我该如何解决这个问题?
我遵循了这些文档:
http://wiki.apache.org/nutch/RunNutchInEclipse1.0
http://wiki.apache.org/nutch/NutchTutorial
任何帮助将不胜感激。
java - How can I download pictures using Nutch?
How can I download pictures using Nutch (in Eclipse)?
java - 哪些 java 类与这些 nutch 命令相关联?
我有以下一起批处理的命令。它运行 Nutch 并将结果发送到 Solr。我已经读到这些与我想用来以编程方式运行的 Java 方法相匹配。
这些与哪些 Java 类匹配?
谢谢
cassandra - 网络爬虫,ruby,python,cassandra
我需要编写一个脚本,通过爬网将 100 万条用户名或电子邮件记录插入数据库。脚本可以是任何类型,如 python、ruby、php 等。
请让我知道是否可能?如果可能,请提供如何构建脚本的信息。
谢谢
solr - SOLR & NUTCH如何制作子引擎?
问候所有我正在使用像谷歌这样的模板制作搜索引擎,其中包含新闻子引擎和图像子引擎和视频子引擎,我想知道如何使用 SOLR 和 NUTCH 制作子引擎我对他们真的很陌生,不要不知道怎么做,所以请指教。
wget - 快速重新抓取网站
我正在开发一个系统,该系统必须跟踪少数门户网站的内容并每晚检查更改(例如下载和索引白天添加的新站点)。此门户的内容将被编入索引以供搜索。问题在于重新抓取此门户网站 - 首次抓取门户网站需要很长时间(门户网站示例:www.onet.pl、www.bankier.pl、www.gazeta.pl),我想更快地重新抓取它(尽可能快)例如通过检查修改日期,但我使用了wget下载 www.bankier.pl 但作为回应,它抱怨没有最后修改标题。有没有办法重新抓取这么多网站?我也尝试过使用 Nutch,但用于重新抓取的脚本似乎无法正常工作 - 或者它也取决于此标头(最后修改)。也许有一种工具,爬虫(如 Nutch 之类的)可以通过添加新站点来更新已下载的站点?
最好的问候, Wojtek
hadoop - 在 HDFS 中写入元数据
我们正在使用 nutch 来抓取我们的 Intranet 站点。
我们在 xml 文件中提取元数据,在索引阶段(我们修改了 indexer.java 的代码),当在本地模式下运行时,它为我们提供了所需的元数据。
现在,我们想到了在集群模式下使用nutch(使用hadoop),当我们在集群中爬取nutch时,我们能够获取索引而不是我们以前获取的元数据,在本地模式下我们使用(java的IO类到将元写入文件)。对于 hadoop,我们已将其更改为 hadoop 文件系统 io 类。然而,我们无法获得元数据。
有什么解决方案,还是我们遗漏了什么?
提前致谢, 地理
django - 使用 Django 构建搜索引擎的建议
我是网络爬虫的新手。我将构建一个搜索引擎,让爬虫保存 Rapidshare 链接,包括 Rapidshare 链接找到的 URL……
换句话说,我要建立一个类似的网站filestube.com
经过一番搜索,我发现Scrapy可以与 Django 一起使用。我试图找到关于 nutch 与 Django 的集成,但什么也没找到
我希望你能给我建立这种网站的建议……尤其是爬虫
java - 将 MySQL 连接到 Apache nutch
我第一次使用 Apache Nutch。爬取后如何将数据存储到 MySQL 数据库中?我希望能够轻松地在其他 Web 应用程序中使用这些数据。
我发现了一个相关的问题,但我不清楚代码 id 的哪一部分将被 MySQL 连接器替换。请帮助提供一个简短的代码示例。