问题标签 [stormcrawler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

209 问题

0 投票

1 回答

175 浏览

elasticsearch - 无法将 StormCrawler 连接到安全的 Elasticsearch

我收到以下错误

noNodeAvailableException [没有配置的节点可用：[{#transport#-1}{buKSP622TFWnQm_2-PxqQg}{xxxxxxxx}{10.240.49.79:2309}]] 在 org.elasticsearch.client.transport。

尝试连接到安全的弹性搜索集群时。

该设置适用于未启用 xpack 的 elasticsearch。如何将风暴爬虫连接到安全的弹性搜索？

2018-02-28T16:55:00.693

0 投票

1 回答

630 浏览

maven - StormCrawler maven打包错误

我正在尝试设置和运行 Storm Crawler 并关注http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html博客文章。

StormCrawler 的资源和配置集在我的计算机上的 /Users/deividas/git/selenium-tutorial

运行命令“mvn clean package”后弹出以下错误：

“无法解决项目 com.digitalpebble.crawl:selenium-tutorial:jar:1.0-SNAPSHOT 的依赖关系：在中央找不到工件 ring-cors:ring-cors:jar:0.1.5 ( https://repo.maven .apache.org/maven2 )"

我该如何解决这个问题？

提前致谢！

maven web-crawler stormcrawler

2018-03-05T14:13:15.957

0 投票

1 回答

580 浏览

web-crawler - StormCrawler：等待来自池的连接超时

当我们增加线程数或 Fetcher Bolt 的执行程序数时，我们一直收到以下错误。

这是由于资源泄漏还是对 http 线程池大小的一些硬限制？如果是关于线程池，有没有办法增加池大小？

web-crawler stormcrawler

2018-03-07T10:23:18.110

0 投票

1 回答

195 浏览

cookies - STORM CRAWLER : 通过基本身份验证从单独的链接生成 cookie 并使用 cookie 来抓取种子.txt 中的链接

我要抓取的网站已通过第三方基本身份验证启用身份验证。例如，需要抓取的 url 是https://intranet.crawl.com url 首先被重定向到另一个页面：http://auth.intranet.com，允许基本身份验证，通过有效的用户名和密码它使用 cookie 登录到https://intranet.crawl.com

如何在风暴爬虫中实现上述身份验证？

cookies forms-authentication apache-storm stormcrawler

2018-03-09T13:08:07.397

0 投票

2 回答

311 浏览

java - StormCrawler 无法连接到 ElasticSearch

运行命令时：

我收到一条错误消息：

在浏览器中运行http://localhost:9200/时，ES 成功加载。Kibana 也连接到 ES。所以它一定只是从 StromCrawler 到 ElasticSearch 的连接。

可能是什么问题？

完整错误的片段：

也许我需要在 elasticsearch.yml 或 es-conf.yml 中修改一些东西？（它们都有默认设置）

java elasticsearch web-crawler apache-storm stormcrawler

2018-03-14T15:08:13.153

0 投票

2 回答

188 浏览

elasticsearch - 为什么我在状态和索引中有不同的文档计数？

所以我正在关注 Storm-Crawler-ElasticSearch 教程并玩弄它。

当使用 Kibana 进行搜索时，我注意到索引名称“状态”的命中数远大于“索引”。

例子：

在左上角，您可以看到“状态”索引有846 次点击 ，我认为这意味着它已经爬过了 846 个页面。

现在使用'index' index，显示只有 31 个 hits。

我知道功能索引和状态是不同的，因为状态只负责链接元数据。问题是 StormCrawler 似乎正在解析许多页面而不是索引它们。

所以我想要的是与显示的内容一样的“索引”点击量。而不是只有 31 个。

elasticsearch web-crawler kibana stormcrawler

2018-03-16T07:32:39.667

0 投票

1 回答

72 浏览

elasticsearch - 如何修改 ESCrawlTopology 使其在本地而不是远程运行？“NoNodeAvailableException”异常

我基本上想复制这个命令：

但使其成为可执行类（类似于 ESCrawlToplogy）。但是让它本地化

到目前为止，我已经尝试过：

我所做的主要更改是将“-local”标志作为参数添加到 main 方法。

上面似乎成功地在本地加载了风暴，但是我在 ElasticSearch 中遇到错误。

有任何想法吗？谢谢

elasticsearch web-crawler stormcrawler

2018-03-16T12:09:41.193

0 投票

0 回答

94 浏览

elasticsearch - 在任意时间后爬行时出错

所以我有两个班级负责播种（注入网址）和爬行。

ESSeedInjector 类：

爬虫类：

流向——

运行 ESSeedInjector 类（这会成功注入 url）。

运行爬虫类。

现在这开始爬行，但在任意时间它都会产生错误。

不知道是什么导致了错误，但我看到的模式是，如果通过运行 ESIndex.Init 擦除 ElasticSearch 中的数据，然后执行 ESSeedInjector 然后执行 ESCrawlTopology 类，它将在抓取过程的早期产生异常（解析后种子网址）。

但是，如果我再次运行 ESCrawlTopology（不做任何其他事情），它会产生异常，但要晚得多。

编辑：当我从 CollapsingSpout() 更改为 AggregationSpout() 我现在得到这个日志。

ES 中不再处理或索引任何内容。

elasticsearch stormcrawler

2018-03-16T14:33:18.277

0 投票

1 回答

61 浏览

web-crawler - 从 Eclipse 运行 StormCrawler 时找不到自定义 parsefilter.json 文件

我想报告一下，我一直在研究 StormCrawler SDK 以提取 HTML 响应。我知道 JSoupParserBolt 使用 parsefilter.json 文件根据特定需要提取响应。我也知道有一个用于相同目的的默认文件。在我的例子中，我使用 Eclipse 来执行 pom.xml 文件来为设计的爬虫生成 .jar 文件。然后我运行 CrawlTopology 类，其中包含 main 函数和一个包含 SDK 中所有必需的 spout 和 bolt 引用的 run 函数，形成一个 Topology（我使用 maven archtype 下载示例爬虫）。

问题是 CrawlTopology 类没有调用修改后的 parsefilter.json 文件来引用所需的信息，而是始终使用默认的 parsefilter.json 文件。我无法弄清楚是什么导致了这种问题。无论是 Maven 依赖问题还是默认项目的问题。

谁能帮我吗？

web-crawler apache-storm stormcrawler

2018-03-20T06:27:44.993

0 投票

1 回答

100 浏览

java - 使用 StormCrawler 抓取某些 url 时出现 X509 证书异常

我一直在使用 StormCrawler 来抓取网站。作为 https 协议，我在 StormCrawler 中设置了默认的 https 协议。但是，当我抓取一些网站时，我收到以下异常：

是否有任何机制可以自动下载证书并设置爬虫，我应该如何设置爬虫的配置？

java web-crawler apache-storm x509certificate stormcrawler

2018-03-21T06:23:36.967

1 2 3 4 5 6 7 8 9 10

问题标签 [stormcrawler]

Reference