我想在线阅读这篇文章并且弹出了一些东西,我想在我成功提取它之后我想离线阅读它......所以我在这里经过4周的试验,所有的问题都归结为我的爬虫可以即使在所有的骚动之后,似乎也没有阅读网页的内容......
最初的问题是所有信息都没有出现在一个页面上,因此使用按钮来导航网站本身的内容......
我试过 BeautifulSoup 但它似乎不能很好地解析页面。我目前正在使用 selenium 和 chromedriver。
爬虫无法读取页面的原因似乎是robot.txt文件(爬虫单个页面的等待时间是3600,文章有10页左右,可以忍受,但如果是这样会怎样)说100+),我不知道如何绕过它或绕过它。
有什么帮助吗??