问题标签 [nutch]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nutch - 与 crwaling 网站有关的 Nutch 问题,其中 url 仅在参数传递方面有所不同
我正在使用 Nutch 来抓取网站,但奇怪的是,对于我的一个网站来说,Nutch 抓取只返回两个 url,主页 url ( http://mysite.com/ ) 和另一个。
我网站上的网址基本上都是这种格式
http://mysite.com/index.php?main_page=index¶ms=12
http://mysite.com/index.php?main_page=index&category=tub¶m=17
即 url 仅在附加到 url 的参数方面有所不同(“ http://mysite.com/index.php?”部分对所有 url 都是通用的)
Nutch 是否无法抓取此类网站?
为了抓取此类网站,我应该执行哪些 Nutch 设置?
nutch - 如何在 Nutch-1.0 中启用跟随重定向
我正在使用 Nutch-1.0,并且收到此日志条目 2009-11-12 22:13:11,093 INFO httpclient.HttpMethodDirector - 请求重定向但禁用了 followRedirects。如何启用跟随重定向。提前致谢..
java - 配置 nutch regex-normalize.xml
我正在使用基于 Java 的 Nutch 网络搜索软件。为了防止在我的搜索查询结果中返回重复的(url)结果,我试图在运行 Nutch 爬虫来索引我的 Intranet 时从被索引的 url 中删除(又名规范化)“jsessionid”的表达式。但是,我对 $NUTCH_HOME/conf/regex-normalize.xml 的修改(在运行我的爬网之前)似乎没有任何效果。
如何确保我的 regex-normalize.xml 配置正在用于我的爬网?和,
在抓取/索引期间,什么正则表达式会成功地从 url 中删除/规范化 'jsessionid' 的表达式?
以下是我当前的 regex-normalize.xml 的内容:
这是我发出来运行我的(测试)“抓取”的命令:
php - 从 PHP exec() 运行 Nutch 命令时出现问题
我的 Nutch 目录位于 /home/myserv/nutch/nutch-1.0/
我的 php applictaion 在目录 /home/myserv/www/
在我的 /home/myserv/www/ 目录中有一个 php 文件,它运行 exec 命令来运行 nutch 命令。PHP 代码如下:
$output = exec("bin/nutch all");
当我从命令行运行命令时,我需要位于“/home/myserv/nutch/nutch-1.0/”目录中
当我试图通过 php exec() 运行它时,我似乎可以让它执行。
我试过给出像(下面)这样的完整路径,但没有任何效果:(
$output = exec("/home/myserv/nutch/nutch-1.0/bin/nutch all");
急切地寻求帮助
java - 爬虫获取外部网站搜索结果
- 我可以用来在外部网站上输入搜索文本框并收集搜索结果的最佳实践和库是什么?
- 如何处理具有不同搜索框和复选框的网站并收集结果?
- Selenium 可以用来自动化吗?
- 我应该使用 Heritrix 还是 nutch?哪一个更好?我听说 nutch 带有插件。哪个社区更大?
java - 爬网引擎架构 - Java/Perl 集成
我正在寻找围绕我们的 webcrawling perl 脚本开发一个管理和管理解决方案。基本上,现在我们的脚本保存在 SVN 中,并由 SysAdmin/devs 等手动启动。每次我们需要从新来源检索数据时,我们都必须创建一个包含业务指令和目标的工单。正如您可以想象的那样,这不是最佳解决方案。
该系统有 3 个一致的主题:
- 数据检索具有“概念结构”,因为缺少更好的短语,即信息检索遵循特定路径
- 我们只是在寻找非常具体的信息,因此我们不必担心一段时间内的大量爬网(想想成千上万的页面与数百万的页面)
- 抓取是基于 url 而不是基于站点的。
随着我将此 alpha 版本增强为更生产级的 beta,我希望添加数据检索的自动化和管理。此外,我们的其他系统是 Java(我更精通),我想对 perl 方面进行划分,这样我们就不必严重依赖外部帮助。
我已经评估了通常的嫌疑人Nutch、Droid等,但花在修改这些框架以适应我们特定信息检索的时间是不合理的。
所以我想听听您对以下架构的看法。
我想创建一个解决方案
- 使用 Java 作为管理和执行 perl 脚本的接口
- 使用 Java 进行配置和数据访问
- 坚持使用 perl 进行检索
一个示例用例是
- 数据分析师向我们提出了爬虫的要求
- perl 开发人员创建所需的脚本并使用此 webapp 提交脚本(保存到文件系统)
- 脚本从带有特定参数的 webapp 启动....
webapp应该能够创建perl脚本的多个线程来启动多个爬虫。
所以问题是
- 你怎么看
- Java 和 Perl 之间的集成有多牢固,特别是从 java 调用 perl
- 有人使用过这样的系统,它实际上是 perl 存储库的一部分
真正的目标是不要有一大堆杂乱无章的 perl 脚本,并对我们的信息检索进行一些管理和组织。另外,我知道我可以使用 perl 做我们想要的 web 部分——但正如我之前提到的——试图让 perl 保持专注。但看起来我并不反对把它变成一个全 perl 的解决方案。
接受任何所有建议和意见。
谢谢
nutch - 如何在 nuch 搜索引擎中创建自定义字段?
我想在 nutch 搜索引擎中创建一个自定义字段?我将遵循哪些步骤?
web-scraping - 是否存在任何开放的、可简单扩展的网络爬虫?
我寻找一个足够成熟并且可以简单扩展的网络爬虫解决方案。我对以下功能感兴趣......或扩展爬虫以满足它们的可能性:
- 部分只是为了阅读几个网站的提要
- 抓取这些网站的内容
- 如果该站点有存档,我也想对其进行爬网和索引
- 爬虫应该能够为我探索网络的一部分,它应该能够决定哪些网站符合给定的标准
- 如果发现可能符合我兴趣的东西,应该能够通知我
- 爬虫不应该通过太多请求攻击它来杀死服务器,它应该很聪明地进行爬取
- 爬虫应该对怪异的站点和服务器很健壮
上面的这些事情可以一一完成,而不需要任何大的努力,但我对任何提供可定制、可扩展爬虫的解决方案感兴趣。我听说过 Apache Nutch,但目前对这个项目非常不确定。你有这方面的经验吗?你能推荐替代品吗?
solr - solr admin 集成 nutch 后出现 404 错误
我已按照http://www.lucidimagination.com/blog/2009/03/09/nutch-solr/的说明进行操作
在此之前已经启动并运行了 solr,可以处理测试用例、访问管理页面等。
按照说明将 nutch schema.xml 复制到 solr。工作,可以访问管理员。
当我在 solrconfig.xml 中添加 requesthandler 片段(参见网站上的 5d)时,进入管理页面时突然抛出“HTTP ERROR: 404 missing core name in path RequestURI=/solr/admin/index.jsp”
我看不出 requesthandler 片段中的什么可能导致管理员失败。使用二月。26 构建的 solr。