我了解使用 Python 的 Beautiful Soup 抓取 HTML 的基础知识。但是,这个足球统计页面会调用 AJAX 来获取球员上场时间的数据。(我使用萤火虫识别了网络调用)。
我的问题:甚至可以使用 python 来“抓取”这些信息吗?我需要什么工具,除了 HTML 我应该知道什么?(我目前正在阅读 JavaScript 和 AJAX)。
对于这个非特定问题,我深表歉意,但我什至不知道如何通过 Google 搜索可能存在或不存在的工具。
更新:几天后,我想出了一个Selenium
在 Python 中结合PhantomJS
. 我基本上习惯Selenium
去每个链接,等待页面加载,然后抓取信息。PhantomJS
用作Selenium
.
我理解为什么 mods 想要关闭这个,但是人们在这里给我的建议非常有帮助,因为他们把我带向了正确的方向。我的问题也不是关于什么工具最好,而是更多关于如何在 Python 中做到这一点。