python - 使用python的动态网页爬虫

Question

我想在线阅读这篇文章并且弹出了一些东西，我想在我成功提取它之后我想离线阅读它......所以我在这里经过4周的试验，所有的问题都归结为我的爬虫可以即使在所有的骚动之后，似乎也没有阅读网页的内容......

最初的问题是所有信息都没有出现在一个页面上，因此使用按钮来导航网站本身的内容......

我试过 BeautifulSoup 但它似乎不能很好地解析页面。我目前正在使用 selenium 和 chromedriver。

爬虫无法读取页面的原因似乎是robot.txt文件（爬虫单个页面的等待时间是3600，文章有10页左右，可以忍受，但如果是这样会怎样）说100+），我不知道如何绕过它或绕过它。

有什么帮助吗？？

score 1 · Accepted Answer

如果 robots.txt 设置了限制，那么这就是它的结束。您应该在道德上进行网络抓取，这意味着如果网站所有者希望您在请求之间等待 3600 秒，那就这样吧。

即使 robots.txt 没有规定等待时间，您仍应注意。小型企业/网站所有者可能不知道这一点，并且通过您不断地敲击网站，这对他们来说可能代价高昂。

1 回答 1