我正在寻找一种模拟浏览器资源扩展行为的方法。
我试图解决的流程如下:
- 访问初始 URL(例如http://example.dmn/index.htm)
- 解析收到的 html 响应(例如 index.htm)
- 查找浏览器将作为索引解析的结果获取的资源,例如:
- 图片
- 闪光
- 嵌入式视频/音频
- 框架/iFrames
- 为找到的每个新资源递归地重复该过程
我不希望跟随链接(href),只有在第一次访问页面时浏览器会自动获取的页面资源。
你对如何进行这个模拟有什么建议吗?
是否有任何 Python 项目/库可以提供帮助?
谢谢