问题标签 [nutch2]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何将 apache Nutch 2.x 连接到远程 HBase 集群?
我有两台机器。一台机器以伪分布式模式运行 HBase 0.92.2,而另一台使用 Nutch 2.x 爬虫。如何配置这两台机器,让一台使用 HBase-0.92.2 的机器作为后端存储,另一台使用 Nutch-2.x 的机器作为爬虫?
apache - Apache Nutch 2.3.1 获取特定的 MIME 类型文档
我已经用 hadoop/hbase 生态系统配置了 Apache Nutch 2.3.1。我必须抓取特定文档,即仅具有文本内容的文档。我找到了 regex-urlfilter.txt 来排除 MIME,但找不到任何选项来指定我要抓取的 MIME。regex-url 过滤器的问题在于,可能有许多 MIME 类型会随着时间的推移而增加。所以很难包含所有内容?例如,有什么方法可以指示 Nutch 获取文本/html 文档。
java - Apache Nutch 2.3.1 Fetcher 给出 Invalid uri 异常
我已经为 Apache Nutch 2.3.1 配置了 Hadoop 生态系统。我必须获取一些阿拉伯人脚本网站。Nutch 在获取时为少数 URL 提供了例外。以下是一个示例异常
web-crawler - Apache Nutch 2.3.1 在选择点更倾向于种子域
我已经为 apache Nutch 2.3.1 配置了完整的 Hadoop/Hbase 生态系统。我希望我的爬虫应该更多地优先考虑在每次迭代中以种子形式给出的那些域。根据我的测试;它可以在任一方向完成,即从外链接中选择所有网址,反之亦然。可以说,我希望 40% 的选定 URL 应该来自外链(种子中给出的除外),并且 60% 的 URL 应该属于种子中给出的域。有可能吗?怎么做?
我认为是生成器步骤导致了这种行为。
hadoop - Apache Nutch 在限制后刷新 gora 记录
我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我没有改变gora.buffer.read.limit
,gora.buffer.read.limit
即在这两种情况下都使用它们的默认值 10000。在生成阶段,我将 topN 设置为 100,000。在生成作业期间,我得到以下信息
工作完成后,我发现有 100,000 个 url 被标记为我想要的 fetched。但我很困惑上面的警告显示了什么?gora.buffer.read.limit 对我的爬行有什么影响?有人可以指导吗?
java - SolrCloud 模式下的 Apache Nutch SolrIndexer 错误
我已经配置了 Apache Nutch 2.3.1 并且爬了几个网站。我必须将这些文档索引到在云模式下运行的 Solr (6.6.3)。当我执行 solrindex 命令时,出现以下异常
问题出在哪里?如果我在没有云模式的情况下使用 solr 重复相同的工作,它可以正常工作。
apache - nutch 时间安排再次访问一个页面
我已经为 Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。我有几百个要获取的域。到目前为止,我已经取得了许多。我很好奇 Nutch 何时会再次访问已经获取的文档并在更新时重新获取它。是否有任何控制参数或类似的东西?
web-crawler - Apache Nutch 未抓取内链接中的所有网站
我已经为 Apache Nutch 2.3.1 配置了 Hadoop/Hbase 生态系统。以下是配置信息。
Nutch 作业运行的计算节点有 3 个。现在的问题是,在使用 5000 个域作为起始种子之后,nutch 只获取了几个域,并且还有很多新域,并且只获取了一个文档。我希望 nutch 应该 fairley 获取所有域。我也给内链打了 5 分,但我的 tweeking 显示这个属性根本没有影响。
我对抓取的数据进行了后期处理,发现数据库(hbase)中总共有 14000 个域,其中超过 50% 的域没有被 Nutch 抓取(他们的文档的获取状态代码为 0x01)。为什么会这样。如何更改 nutch 以考虑新域,即,它应该以某种方式对所有域公平以获取。
web-crawler - Apache Nutch 2.3.1 opic 评分过滤器不起作用
我在一个小型集群上配置了 Nutch 2.3.1 和完整的 Hadoop/Hbase 生态系统。我对 Nutch 中使用的评分算法很好奇。我在 Nutch 中找到并使用了 opic 评分过滤器。为了找到它的影响,我按照 Nutch WIKI中的指导在 Nutch IN(dbupdate 和 generate 阶段)的不同步骤检查分数。但是我发现,无论我运行多少次迭代以及获取多少个文档,每个文档的分数始终保持为零。在 opic 实现中是否存在一些问题,或者我缺少它的一些配置。
我观察到_csh_
包含现金的字段在提取器阶段从 Hbase 的相应表中删除。
parsing - 特定语言网站的 Apache Nutch 标题解析问题
我已经用 Hadoop 2.7.5 和 Hbase 0.98 配置了 apache Nutch 2.3.1。我必须抓取一些乌尔都语网站。我正在使用它的默认解析器,即 html、tika。有些文件的标题是乌尔都语,没问题,但有些文件的标题是乌尔都语,标题为 1,即 h1 具有原始标题,例如bbc-page。同样,在某些情况下,元标记具有相关标题。是否有任何内置选项(解析器)可以处理此选项,以便它应该选择 h1 作为标题(如果可用)。
或者如果我必须这样做,有什么可能的方法来达到这个目的。