我刚刚开始使用 Python 进行一些网络抓取项目。我目前使用 lxml、Beautiful Soup 和 requests 模块来抓取网页。我需要知道是否有任何方法可以仅从网站获取我们需要的数据,而不是加载整个页面。requests 模块执行 GET 请求并接收整个 bs4、lxml 仅过滤数据。我尝试了 Selenium,但这也打开了不太适合工业项目的浏览器。我不知道刮擦和飞溅。
我也不是在寻找并非在任何地方都适用的 API 密钥方法。
我刚刚开始使用 Python 进行一些网络抓取项目。我目前使用 lxml、Beautiful Soup 和 requests 模块来抓取网页。我需要知道是否有任何方法可以仅从网站获取我们需要的数据,而不是加载整个页面。requests 模块执行 GET 请求并接收整个 bs4、lxml 仅过滤数据。我尝试了 Selenium,但这也打开了不太适合工业项目的浏览器。我不知道刮擦和飞溅。
我也不是在寻找并非在任何地方都适用的 API 密钥方法。
对 api 调用进行逆向工程。
您应该分析传入和传出请求的网络选项卡并查看每个请求的响应。或者,您也可以将请求复制为 curl 并使用邮递员分析请求。Postman 具有独特的功能,可以为 requests 库和 urllib 库生成 python 代码。大多数网站都会返回json
响应,但有时您可能会得到html
响应。
有些网站不允许抓取。确保检查您将要抓取的网站的 robots.txt。您可以通过 找到robot.txt www.sitename.com/robots.txt
。
欲了解更多信息 - https://www.youtube.com/watch?v=LPU08ZfP-II&list=PLL2hlSFBmWwwvFk4bBqaPRV4GP19CgZug