我正在使用带有 selenium 协议的 Apache Nutch 1.14。对此的设置nutch-site.xml
是
<property>
<name>plugin.includes</name>
<value>protocol-selenium|urlfilter-(regex|validator)|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<!--<value>protocol-http|protocol-httpclient|urlfilter-(regex|validator)|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>-->
<description>Regular expression naming plugin directory names to ...
</description>
</property>
我正在尝试抓取一个网站。我正在使用硒集线器和节点。
我得到 Http 状态代码 429。
但我也可以在浏览器上看到 html 页面。
但是 Nutch 没有为raw_html
我收到此错误
失败:http code=429,url= https://www.expedia.com/
hadoop log
文件中也没有错误