0

我正在使用带有 selenium 协议的 Apache Nutch 1.14。对此的设置nutch-site.xml

<property>
  <name>plugin.includes</name>
  <value>protocol-selenium|urlfilter-(regex|validator)|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
  <!--<value>protocol-http|protocol-httpclient|urlfilter-(regex|validator)|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>-->
  <description>Regular expression naming plugin directory names to ...  
  </description>
</property>

我正在尝试抓取一个网站。我正在使用硒集线器和节点。

我得到 Http 状态代码 429。
但我也可以在浏览器上看到 html 页面。
但是 Nutch 没有为raw_html

我收到此错误

失败:http code=429,url= https://www.expedia.com/

hadoop log文件中也没有错误

4

0 回答 0