问题标签 [stormcrawler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

209 问题

0 投票

1 回答

54 浏览

web-crawler - Stormcrawler 硒重复处理

我通过提供的导航过滤器插件使用带有 selenium 远程驱动程序协议的 Stormcrawler。如果我的导航过滤器执行了很长时间（url 被正确处理并在 mysql 数据库中将状态更新为“fetched”），爬虫会以某种方式从 mysql 表中获取相同的 url 以再次获取。所以状态更新发生在 url 再次在队列中之后。我可以配置什么参数来避免这种情况？我试图将所有组件设置为 threads=1 并且它仍在发生。

web-crawler stormcrawler

2018-08-28T22:01:22.380

0 投票

1 回答

116 浏览

elasticsearch - 让 StormCrawler 从网页中检索更多正文内容并将其放入 Elasticsearch

我有一个概念证明 Stormcrawler 安装指向我们的一个较小的大学网站（https://example.com - 大约 300 页），并且我对 SC 从正文内容中提取的信息量有疑问。该站点在页面顶部有大量菜单，而 SC 只是通过提取菜单内容来获取大部分内容，然后才被切断，并且从未真正获得页面的真实内容。有没有办法告诉 SC 从页面中获取更多的正文内容？还是 Elasticsearch 方面的问题？我目前已经安装了 SC/ES，就像您发布的教程一样。

谢谢！吉姆

2018-09-05T12:18:31.777

0 投票

1 回答

65 浏览

web-crawler - StormCrawler 的 default-regex-filters.txt

我已经搞砸了一段时间，并且无法理清 StormCrawler 的 default-regex-filters.txt 文件是如何工作的。

在一个示例中，我需要将爬虫限制为仅爬取https://www.example.com/dev下的项目，而不是该站点上的任何其他目录。我把规则

进入 default-regex-filters.txt 的最后一行，但它似乎不起作用。我认为标准正则表达式规则适用，但似乎并非如此。上面的示例之一在它之前有/没有 \ 并且它正在工作？我对此感到很困惑，想知道该文件中是否有正则表达式的备忘单，以便我可以更轻松地构建这些。

作为后续，文件中也只能有一个 + 过滤器吗？我依稀记得读过那篇文章，但想确定一下。

web-crawler stormcrawler

2018-09-05T18:05:18.613

0 投票

1 回答

42 浏览

web-crawler - Stormcrawler 的 ContentParseFilter

如果我将 StormCrawler 的 ContentParseFilter 设置为

这是否意味着在处理每个 url 时它会寻找指向其他页面的链接的唯一地方？我想知道我是否设置它是否会开始忽略菜单中的所有网址等。

谢谢！吉姆

web-crawler stormcrawler

2018-09-06T11:50:41.200

0 投票

1 回答

181 浏览

web-crawler - 在本地模式下运行storm crawler，不依赖zookeeper，nimbus

我在 mysql 中存储 url，在 lucene 中存储索引数据。我在使用 tomcat 的多台机器中运行 Storm crawler 作为应用服务器。我真的需要zookeeper，nimbus和storm来在服务器之间分发url（来自mysql）..？？

web-crawler apache-storm stormcrawler

2018-09-12T04:12:14.977

0 投票

1 回答

165 浏览

apache - Stormcrawler：注入新的 URL 进行爬取，无需重启拓扑

有没有办法在不从命令行停止拓扑并编辑正确文件的情况下注入新的 URL 进行爬网？我想用 Elasticsearch 作为索引器来做到这一点

apache web-crawler apache-storm stormcrawler

2018-09-12T18:43:27.440

0 投票

1 回答

256 浏览

web-crawler - 如何在 StormCrawler 中使用快速 url 过滤器？

我遇到了快速的 url 过滤器。它提供了几个选项，例如将过滤器应用于特定域。有人可以详细了解它的用法以及如何在 url filters.json 中配置它吗？

web-crawler apache-storm stormcrawler

2018-09-17T07:40:01.203

0 投票

0 回答

66 浏览

java - 如何在 Stormcrawler SDK 中将日志级别更改为 DEBUG？

我看到 SLF4J 用于在 Stormcrawler 组件执行期间记录条目。但是我找不到包含用于 SLF4J 日志记录的配置的文件。我是否需要单独的配置文件来启用调试级别日志记录？

java slf4j apache-storm stormcrawler

2018-09-17T08:23:39.443

0 投票

1 回答

63 浏览

web-crawler - 风暴爬虫中的桶号有什么用？

在使用分区“主机”爬取多个网站时，根据主机生成分区键，也称为桶。每个 spout 实例都有一个桶来获取 url。如果我只抓取一个网站会发生什么？在这种情况下，我只有一个桶，这意味着只有一个 spout 实例可以访问我的桶？如果爬取一个桶中的所有网址，如果爬取多个网站，spout 实例是否会移动到下一个桶？

web-crawler apache-storm stormcrawler

2018-09-17T13:05:08.220

0 投票

1 回答

29 浏览

web-crawler - 在处理分配给它的存储桶中的所有 url 后，我的 spout 线程会在风暴爬虫中保持空闲吗？

1）当数据库中的桶数大于线程数时会发生什么？2）当一个桶中只有一个url但是有10个spout线程时会发生什么......剩下的9个线程会保持空闲状态吗？

web-crawler apache-storm stormcrawler

2018-09-20T09:53:56.983

1 2 3 4 5 6 7 8 9 10

问题标签 [stormcrawler]

Reference