问题标签 [stormcrawler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
175 浏览

elasticsearch - 无法将 StormCrawler 连接到安全的 Elasticsearch

我收到以下错误

noNodeAvailableException [没有配置的节点可用:[{#transport#-1}{buKSP622TFWnQm_2-PxqQg}{xxxxxxxx}{10.240.49.79:2309}]] 在 org.elasticsearch.client.transport。

尝试连接到安全的弹性搜索集群时。

该设置适用于未启用 xpack 的 elasticsearch。如何将风暴爬虫连接到安全的弹性搜索?

0 投票
1 回答
630 浏览

maven - StormCrawler maven打包错误

我正在尝试设置和运行 Storm Crawler 并关注http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html博客文章。

StormCrawler 的资源和配置集在我的计算机上的 /Users/deividas/git/selenium-tutorial

运行命令“mvn clean package”后弹出以下错误:

“无法解决项目 com.digitalpebble.crawl:selenium-tutorial:jar:1.0-SNAPSHOT 的依赖关系:在中央找不到工件 ring-cors:ring-cors:jar:0.1.5 ( https://repo.maven .apache.org/maven2 )"

我该如何解决这个问题?

提前致谢!

0 投票
1 回答
580 浏览

web-crawler - StormCrawler:等待来自池的连接超时

当我们增加线程数或 Fetcher Bolt 的执行程序数时,我们一直收到以下错误。

这是由于资源泄漏还是对 http 线程池大小的一些硬限制?如果是关于线程池,有没有办法增加池大小?

0 投票
1 回答
195 浏览

cookies - STORM CRAWLER : 通过基本身份验证从单独的链接生成 cookie 并使用 cookie 来抓取种子.txt 中的链接

我要抓取的网站已通过第三方基本身份验证启用身份验证。例如,需要抓取的 url 是https://intranet.crawl.com url 首先被重定向到另一个页面:http://auth.intranet.com,允许基本身份验证,通过有效的用户名和密码它使用 cookie 登录到https://intranet.crawl.com

如何在风暴爬虫中实现上述身份验证?

0 投票
2 回答
311 浏览

java - StormCrawler 无法连接到 ElasticSearch

运行命令时:

我收到一条错误消息:

在浏览器中运行http://localhost:9200/时,ES 成功加载。Kibana 也连接到 ES。所以它一定只是从 StromCrawler 到 ElasticSearch 的连接。

可能是什么问题?

完整错误的片段:

也许我需要在 elasticsearch.yml 或 es-conf.yml 中修改一些东西?(它们都有默认设置)

0 投票
2 回答
188 浏览

elasticsearch - 为什么我在状态和索引中有不同的文档计数?

所以我正在关注 Storm-Crawler-ElasticSearch 教程并玩弄它。

当使用 Kibana 进行搜索时,我注意到索引名称“状态”的命中数远大于“索引”。

例子:

在左上角,您可以看到“状态”索引有846 次点击 ,我认为这意味着它已经爬过了 846 个页面。

在此处输入图像描述

现在使用'index' index,显示只有 31 个 hits

我知道功能索引和状态是不同的,因为状态只负责链接元数据。问题是 StormCrawler 似乎正在解析许多页面而不是索引它们。

所以我想要的是与显示的内容一样的“索引”点击量。而不是只有 31 个。

0 投票
1 回答
72 浏览

elasticsearch - 如何修改 ESCrawlTopology 使其在本地而不是远程运行?“NoNodeAvailableException”异常

我基本上想复制这个命令:

但使其成为可执行类(类似于 ESCrawlToplogy)。但是让它本地化

到目前为止,我已经尝试过:

我所做的主要更改是将“-local”标志作为参数添加到 main 方法。

上面似乎成功地在本地加载了风暴,但是我在 ElasticSearch 中遇到错误。

有任何想法吗?谢谢

0 投票
0 回答
94 浏览

elasticsearch - 在任意时间后爬行时出错

所以我有两个班级负责播种(注入网址)和爬行。

ESSeedInjector 类:

爬虫类:

流向——

运行 ESSeedInjector 类(这会成功注入 url)。

运行爬虫类。

现在这开始爬行,但在任意时间它都会产生错误。

不知道是什么导致了错误,但我看到的模式是,如果通过运行 ESIndex.Init 擦除 ElasticSearch 中的数据,然后执行 ESSeedInjector 然后执行 ESCrawlTopology 类,它将在抓取过程的早期产生异常(解析后种子网址)。

但是,如果我再次运行 ESCrawlTopology(不做任何其他事情),它会产生异常,但要晚得多。

编辑:当我从 CollapsingSpout() 更改为 AggregationSpout() 我现在得到这个日志。

ES 中不再处理或索引任何内容。

0 投票
1 回答
61 浏览

web-crawler - 从 Eclipse 运行 StormCrawler 时找不到自定义 parsefilter.json 文件

我想报告一下,我一直在研究 StormCrawler SDK 以提取 HTML 响应。我知道 JSoupParserBolt 使用 parsefilter.json 文件根据特定需要提取响应。我也知道有一个用于相同目的的默认文件。在我的例子中,我使用 Eclipse 来执行 pom.xml 文件来为设计的爬虫生成 .jar 文件。然后我运行 CrawlTopology 类,其中包含 main 函数和一个包含 SDK 中所有必需的 spout 和 bolt 引用的 run 函数,形成一个 Topology(我使用 maven archtype 下载示例爬虫)。

问题是 CrawlTopology 类没有调用修改后的 parsefilter.json 文件来引用所需的信息,而是始终使用默认的 parsefilter.json 文件。我无法弄清楚是什么导致了这种问题。无论是 Maven 依赖问题还是默认项目的问题。

谁能帮我吗?

0 投票
1 回答
100 浏览

java - 使用 StormCrawler 抓取某些 url 时出现 X509 证书异常

我一直在使用 StormCrawler 来抓取网站。作为 https 协议,我在 StormCrawler 中设置了默认的 https 协议。但是,当我抓取一些网站时,我收到以下异常:

是否有任何机制可以自动下载证书并设置爬虫,我应该如何设置爬虫的配置?