0

我想在线阅读这篇文章并且弹出了一些东西,我想在我成功提取它之后我想离线阅读它......所以我在这里经过4周的试验,所有的问题都归结为我的爬虫可以即使在所有的骚动之后,似乎也没有阅读网页的内容......

最初的问题是所有信息都没有出现在一个页面上,因此使用按钮来导航网站本身的内容......

我试过 BeautifulSoup 但它似乎不能很好地解析页面。我目前正在使用 selenium 和 chromedriver。

爬虫无法读取页面的原因似乎是robot.txt文件(爬虫单个页面的等待时间是3600,文章有10页左右,可以忍受,但如果是这样会怎样)说100+),我不知道如何绕过它或绕过它。

有什么帮助吗??

4

1 回答 1

1

如果 robots.txt 设置了限制,那么这就是它的结束。您应该在道德上进行网络抓取,这意味着如果网站所有者希望您在请求之间等待 3600 秒,那就这样吧。

即使 robots.txt 没有规定等待时间,您仍应注意。小型企业/网站所有者可能不知道这一点,并且通过您不断地敲击网站,这对他们来说可能代价高昂。

于 2020-08-31T22:43:33.320 回答