python - 使用 Python 抓取网页而不加载整个页面

Question

我刚刚开始使用 Python 进行一些网络抓取项目。我目前使用 lxml、Beautiful Soup 和 requests 模块来抓取网页。我需要知道是否有任何方法可以仅从网站获取我们需要的数据，而不是加载整个页面。requests 模块执行 GET 请求并接收整个 bs4、lxml 仅过滤数据。我尝试了 Selenium，但这也打开了不太适合工业项目的浏览器。我不知道刮擦和飞溅。

我也不是在寻找并非在任何地方都适用的 API 密钥方法。

score 0 · Accepted Answer

对 api 调用进行逆向工程。

您应该分析传入和传出请求的网络选项卡并查看每个请求的响应。或者，您也可以将请求复制为 curl 并使用邮递员分析请求。Postman 具有独特的功能，可以为 requests 库和 urllib 库生成 python 代码。大多数网站都会返回json响应，但有时您可能会得到html响应。

有些网站不允许抓取。确保检查您将要抓取的网站的 robots.txt。您可以通过找到robot.txt www.sitename.com/robots.txt。

欲了解更多信息 - https://www.youtube.com/watch?v=LPU08ZfP-II&list=PLL2hlSFBmWwwvFk4bBqaPRV4GP19CgZug

python - 使用 Python 抓取网页而不加载整个页面

1 回答 1

Related

Reference