1

我正在尝试使用 python 脚本运行网络搜索。我知道如何使它适用于大多数网站,例如使用请求库来获取“url+查询参数”。我正在尝试在 wappalyzer.com 上运行搜索。但是当您运行搜索时,它的 url 不会改变。我还尝试检查 html 以尝试找出搜索发生的位置,以便我可以使用漂亮的汤来更改 html 并运行它,但无济于事。我对网络抓取真的很陌生,所以很想得到帮助。

4

1 回答 1

0

URL 不会更改,因为搜索适用于 javascript 和异步请求。自动化此类任务的最简单方法是执行 javascript 并以编程方式进行交互(通常比对客户端所做的请求进行逆向工程更容易,除非公共 API 可用)。

您可以将selenium 与 python一起使用,这很容易使用,或者任何通过运行 Web 驱动程序(gecko、chrone、phantomjs)来执行 Javascript 的自动化框架。

使用 selenium,您将能够通过选择搜索字段(例如使用 css 选择器或 xpath)、输入值并验证搜索来非常轻松地编程您的爬虫。然后,您将能够转储整个页面或您需要的特定部分。

于 2018-07-31T15:41:16.423 回答