我想从网站上抓取一些动态数据。
在网站上,顶部有几个链接,分别标有“1”、“2”、“3”和“下一步”。如果按下数字标记的链接,它会将一些数据动态加载到内容 div 中。如果按下“下一个”,它将转到标签为“4”、“5”、“6”、“下一个”的页面,并显示第 4 页的数据。
我想从内容 div 中为所有按下的链接抓取数据(我不知道有多少,它一次只显示 3 个和“下一个”)。
内容 div 中的数据在多个页面上统一布局(只是文本更改)。
我已经尝试捕获 ajax 请求,认为我可以获取一次原始请求,并且只需要更改像“pagenum”post 参数或加载新页面的东西,但事实证明他们用 asp 做了一些时髦的东西有一些非常长的十六进制字符串 post 参数,每个请求都会改变。我相信我最终可以让它发挥作用,但它会非常肮脏,如果最小的事情发生变化,它将毫无用处。
我的想法是我可以使用 selenium 之类的东西来单击超链接并为我加载页面,将内容 div 中的信息发回。问题是我不知道我需要按多少次“下一步”按钮,所以我不能编写脚本按 X 次。这是硒可以处理的事情吗?如果是这样,你能给我指一个关于使用 selenium 像这样刮擦的教程吗?因为我见过的大多数教程都集中在使用它进行测试(我知道这是它的预期目的)。