问题标签 [nutch]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1624 浏览

search - nutch 和 sitemap.xml

apache-nutch 支持站点地图吗?或者我如何自己实现它?我如何使用优先级字段,是否应该将其乘以提升字段?

0 投票
1 回答
1168 浏览

nutch - 您如何在找到的页面上抓取外部链接?

我使用了从他们的 wiki 安装 nutch 的示例。我能够轻松地抓取从 dmoz 中提取的多个页面。但是是否可以进行配置来抓取它在页面上找到的外部链接,或者将这些外部链接写入接下来要抓取的文件?

跟随页面上的链接以使用 nutch 索引该页面的最佳方法是什么?如果我通过 python 执行 bin/nutch,我可以取回它找到的所有外部链接,并创建一个新的爬网列表以再次运行吗?你会怎么办?

0 投票
1 回答
416 浏览

search - 在 Nutch 中分析 Lucene

我正在尝试使用 VisualVM 分析 Nutch。Lucene 是 Nutch 核心的一部分,负责生成 url 索引并根据某些查询搜索这些索引。我正在通过 Apache Tomcat 运行 Nutch,我想确定 Nutch 在各种函数调用(包括 Lucene 调用)上花费了多少时间,但是当我尝试使用 VisualVM 进行分析时,我得到了一堆关于 Tomcat 而不是 Nutch 或 Lucene 的分析数据. 我在这里做错了什么?

0 投票
0 回答
3115 浏览

jetty - 无法访问作业跟踪器的 hadoop web ui

我正在尝试设置 hadoop 和 nutch 在 EC2 上运行。首先,我遵循了优秀的NutchHadoopTutorial。除了我无法访问任何 Web 界面(例如 JobTracker)之外,大多数事情都可以正常工作。JobTracker 启动时没有错误,我可以点击nutch-master:50030,但是我得到了看起来像 jetty 的默认 servlet,它返回一个指向 webapps 目录的链接,然后从那里返回一个作业目录,然后是一个指向nutch-master:50030/webapps/job/jobtracker.jsp--的链接为 .返回 404 RequestURI=/webapps/job/jobtracker.jsp。我检查了类路径,所有应该存在的东西实际上都是可用的:

我已经在谷歌上搜索并尝试了大约 8 个小时的不同事情,但我完全不知道可能出了什么问题。我敢肯定,我忽略了一些非常明显的事情。有人有什么主意吗?

更多细节:这是 EC2 上的一个三节点集群,我可以在每个节点之间使用密码进行 ssh,并且节点似乎正在通信而没有问题(即日志中没有异常)。它们都是 ubuntu 10.04 服务器。Hadoop 0.20.2。

提前致谢。

0 投票
1 回答
1344 浏览

java - 从 Java 中获取带有 javascript 链接的网页

我有一个 Java 网络爬虫应用程序,它需要访问网页中的所有链接。问题是在某些页面中,链接是由 javascript 函数生成的。就像是:

我知道HtmlUnit。但在我的测试中,它对于我的目的来说太慢了。一个本地页面(在http://localhost/test.html中)需要将近 2 秒才能获取。其他远程网页花费了更多时间。

我想要最简单/最快的方法来查找网页中的所有链接,甚至是 Java 中的 javascript 链接。(欢迎使用 C/C++ 中的解决方案)。我也知道Nutch(爬虫)有一个来自 Javascript 的链接提取器,但我不确定是否可以从 Nutch 中“提取”该代码以在另一个上下文中使用。

0 投票
1 回答
757 浏览

plugins - 为什么 nutch 解析 application/x-javascript 文件?

我在我的conf/nutch-site.xml

请注意解析器列表 - 只有文本、html、pdf 和 msword。但出于某种奇怪的原因,我刚刚在我的索引中发现了一些 application/x-javascript 文件。为什么会这样?它是否使用插件目录中的内容而忽略了我的plugin.includes?

0 投票
2 回答
964 浏览

drupal - Drupal + Nutch + Solr

我们即将开始一个由搜索引擎网站组成的项目。我们需要在其核心搜索引擎解决方案上实现一个具有社交功能的网站。显然,我们需要选择一个好的网络爬虫以及一个全文搜索引擎。由于我们的团队有使用 Drupal 开发网站的良好经验;该团队的一名成员提出了这个解决方案:将 Drupal 社交功能与作为网络爬虫的 Nutch 和作为 FTS 搜索引擎的 Solr 集成。

第一个问题:您如何看待我们的选择?有没有办法让 Nutch 和 Solr 在 Drupal 中无缝工作?

第二个:有什么好的爬虫/索引/搜索解决方案可以很好地与 Drupal 融合吗?

第三个问题:(根据团队成员的建议)如何使用 Wicket 等 UI Java 框架对整个站点进行编码,并将其与 Nutch 和 Solr 集成,因为这三种技术都是基于 Java 的?

谢谢

0 投票
2 回答
2028 浏览

solr - Hadoop 创建一个索引并将其添加()到分布式 SOLR ......这可能吗?我应该使用 Nutch 吗?..Cloudera?

我可以使用 MapReduce 框架创建索引并以某种方式将其添加到分布式 Solr 中吗?

我有大量信息(日志文件和文档),这些信息将通过互联网传输并存储在我的数据中心(或亚马逊)中。它需要被我们复制的 Solr 安装解析、索引和最终搜索。

这是我提出的架构:

  • 使用 MapReduce 框架(Cloudera、Hadoop、Nutch,甚至DryadLinq)来准备这些文档以进行索引
  • 将这些文档索引为 Lucene.NET / Lucene (java) 兼容的文件格式
  • 将该文件部署到我的所有 Solr 实例
  • 激活该复制索引

如果以上是可能的,我需要选择一个 MapReduce 框架。由于 Cloudera 是供应商支持的,并且有大量未包含在 Hadoop 安装中的补丁,我认为它可能值得一看。

一旦我选择了 MatpReduce 框架,我需要对文档(PDF、DOCx、DOC、OLE 等)进行标记,对它们进行索引,将索引复制到我的 Solr 实例中,并以某种方式“激活”它们以便它们可以在正在运行的实例。我相信这种方法比通过 REST 接口向 Solr 提交文档更好。

我将 .NET 引入图片的原因是因为我们主要是一家 .NET 商店。我们将拥有的唯一 Unix/Java 是 Solr,并且有一个通过 Solrnet 利用 REST 接口的前端。

根据您的经验,这种架构看起来如何?你看到任何问题/问题吗?你能给出什么建议?

应该怎么做才能失去分面搜索?在阅读了 Nutch 文档后,我相信它说它不做 faceting,但我可能没有足够的软件背景来理解它在说什么。

0 投票
1 回答
383 浏览

solr - How to use Solr search that is included with Nutch-1.2?

There's some good (outdated though) tutorials on how to integrate Nutch with Solr to get a full web search experience. In the latest Nutch release (1.2), Solr is integrated out-of-the-box in the Nutch distribution. Question is: How to use it?

Thanks

0 投票
1 回答
565 浏览

php - Zend lucene 内容字段

我已经使用 Nutch 索引了一个站点,现在我正在使用 Zend Lucene 库搜索索引。

我实际上已经将 Zend 库拉入了 Codeigniter,但是这一切都是 Zend 做的。

我可以很好地显示标题、分数和网址,但我找不到显示页面内容的字段名称。

到目前为止,我有以下代码

任何人都可以帮助显示内容或内容摘要的字段名称吗?

谢谢