python - Python 使用 Selenium 从页面上的多个链接中抓取数据

Question

我的问题是我有一个包含多个用户配置文件的页面（一页 20 个，50 页），我想使用 selenium 自动单击每个配置文件，然后使用 beautifulsoup 获取数据并将其存储到数据框中。然后我想在接下来的 50 页中这样做。我刚刚研究了 Scrapy 可能会更好，但如果有使用 Selenium lmk 的解决方案！提前致谢

这是我的代码：

for i in range(2): 
  actions = ActionChains(browser)
  actions.move_to_element(arrow).click(arrow)
  actions.perform()
  time.sleep(10)
  print(1)

  member_name = browser.find_elements_by_xpath("//h2[@class='list-title member-name']/a[1]")
  format(member_name)
  print(3)

format(member_name) 只是一个格式化输出的函数

score 0 · Accepted Answer

这实际上取决于站点以及结果分页的工作方式（特定于实现），例如，如果您可以单击结果的第 n 页并且 URL 后缀然后显示某种查询以显示结果数量并从 21 等开始，然后你根本不需要 Selenium，你可以通过一个循环和一些等待时间来做到这一点，这样你就不会向网站发送垃圾邮件。

我发现这个问题的答案有一些有用的启发式方法。

https://stackoverflow.com/a/44102555/9217153

我仍然不确定我是否看到了一个明确的问题，您只是描述了一个问题并提出了解决方案，但我看不出您在哪里挂断/技术问题/事情不起作用。

如果您查找它们，在线也有很多指南

这是一个 Youtube 视频，展示了如何使用 Scrapy 进行操作，但同样的概念也适用，重要的是 URL 后缀而不是点击页面。

https://www.youtube.com/watch?v=quMUjys9BcU

这是一个展示页面遍历如何用于 Selenium + Python

https://www.youtube.com/watch?v=zjo9yFHoUl8

python - Python 使用 Selenium 从页面上的多个链接中抓取数据

1 回答 1

Related

Reference