问题标签 [stormcrawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - 无法将 StormCrawler 连接到安全的 Elasticsearch
我收到以下错误
noNodeAvailableException [没有配置的节点可用:[{#transport#-1}{buKSP622TFWnQm_2-PxqQg}{xxxxxxxx}{10.240.49.79:2309}]] 在 org.elasticsearch.client.transport。
尝试连接到安全的弹性搜索集群时。
该设置适用于未启用 xpack 的 elasticsearch。如何将风暴爬虫连接到安全的弹性搜索?
maven - StormCrawler maven打包错误
我正在尝试设置和运行 Storm Crawler 并关注http://digitalpebble.blogspot.co.uk/2017/04/crawl-dynamic-content-with-selenium-and.html博客文章。
StormCrawler 的资源和配置集在我的计算机上的 /Users/deividas/git/selenium-tutorial
运行命令“mvn clean package”后弹出以下错误:
“无法解决项目 com.digitalpebble.crawl:selenium-tutorial:jar:1.0-SNAPSHOT 的依赖关系:在中央找不到工件 ring-cors:ring-cors:jar:0.1.5 ( https://repo.maven .apache.org/maven2 )"
我该如何解决这个问题?
提前致谢!
web-crawler - StormCrawler:等待来自池的连接超时
当我们增加线程数或 Fetcher Bolt 的执行程序数时,我们一直收到以下错误。
这是由于资源泄漏还是对 http 线程池大小的一些硬限制?如果是关于线程池,有没有办法增加池大小?
cookies - STORM CRAWLER : 通过基本身份验证从单独的链接生成 cookie 并使用 cookie 来抓取种子.txt 中的链接
我要抓取的网站已通过第三方基本身份验证启用身份验证。例如,需要抓取的 url 是https://intranet.crawl.com url 首先被重定向到另一个页面:http://auth.intranet.com,允许基本身份验证,通过有效的用户名和密码它使用 cookie 登录到https://intranet.crawl.com
如何在风暴爬虫中实现上述身份验证?
java - StormCrawler 无法连接到 ElasticSearch
运行命令时:
我收到一条错误消息:
在浏览器中运行http://localhost:9200/时,ES 成功加载。Kibana 也连接到 ES。所以它一定只是从 StromCrawler 到 ElasticSearch 的连接。
可能是什么问题?
完整错误的片段:
也许我需要在 elasticsearch.yml 或 es-conf.yml 中修改一些东西?(它们都有默认设置)
elasticsearch - 如何修改 ESCrawlTopology 使其在本地而不是远程运行?“NoNodeAvailableException”异常
我基本上想复制这个命令:
但使其成为可执行类(类似于 ESCrawlToplogy)。但是让它本地化
到目前为止,我已经尝试过:
我所做的主要更改是将“-local”标志作为参数添加到 main 方法。
上面似乎成功地在本地加载了风暴,但是我在 ElasticSearch 中遇到错误。
有任何想法吗?谢谢
elasticsearch - 在任意时间后爬行时出错
所以我有两个班级负责播种(注入网址)和爬行。
ESSeedInjector 类:
爬虫类:
流向——
运行 ESSeedInjector 类(这会成功注入 url)。
运行爬虫类。
现在这开始爬行,但在任意时间它都会产生错误。
不知道是什么导致了错误,但我看到的模式是,如果通过运行 ESIndex.Init 擦除 ElasticSearch 中的数据,然后执行 ESSeedInjector 然后执行 ESCrawlTopology 类,它将在抓取过程的早期产生异常(解析后种子网址)。
但是,如果我再次运行 ESCrawlTopology(不做任何其他事情),它会产生异常,但要晚得多。
编辑:当我从 CollapsingSpout() 更改为 AggregationSpout() 我现在得到这个日志。
ES 中不再处理或索引任何内容。
web-crawler - 从 Eclipse 运行 StormCrawler 时找不到自定义 parsefilter.json 文件
我想报告一下,我一直在研究 StormCrawler SDK 以提取 HTML 响应。我知道 JSoupParserBolt 使用 parsefilter.json 文件根据特定需要提取响应。我也知道有一个用于相同目的的默认文件。在我的例子中,我使用 Eclipse 来执行 pom.xml 文件来为设计的爬虫生成 .jar 文件。然后我运行 CrawlTopology 类,其中包含 main 函数和一个包含 SDK 中所有必需的 spout 和 bolt 引用的 run 函数,形成一个 Topology(我使用 maven archtype 下载示例爬虫)。
问题是 CrawlTopology 类没有调用修改后的 parsefilter.json 文件来引用所需的信息,而是始终使用默认的 parsefilter.json 文件。我无法弄清楚是什么导致了这种问题。无论是 Maven 依赖问题还是默认项目的问题。
谁能帮我吗?
java - 使用 StormCrawler 抓取某些 url 时出现 X509 证书异常
我一直在使用 StormCrawler 来抓取网站。作为 https 协议,我在 StormCrawler 中设置了默认的 https 协议。但是,当我抓取一些网站时,我收到以下异常:
是否有任何机制可以自动下载证书并设置爬虫,我应该如何设置爬虫的配置?