2

我正在寻找一种模拟浏览器资源扩展行为的方法。

我试图解决的流程如下:

  • 访问初始 URL(例如http://example.dmn/index.htm
  • 解析收到的 html 响应(例如 index.htm)
  • 查找浏览器将作为索引解析的结果获取的资源,例如:
    • 图片
    • 闪光
    • 嵌入式视频/音频
    • 框架/iFrames
  • 为找到的每个新资源递归地重复该过程

我不希望跟随链接(href),只有在第一次访问页面时浏览器会自动获取的页面资源。

你对如何进行这个模拟有什么建议吗?

是否有任何 Python 项目/库可以提供帮助?

谢谢

4

3 回答 3

1

你可能想看看Scrapy

它可能无法提供您需要的所有确切功能,但可以轻松扩展以实现此目的。

于 2010-06-15T14:16:01.580 回答
1

您可能希望查看Windmill 测试框架,它允许您使用 Python 为 Web 应用程序编写测试。

于 2010-06-15T09:43:29.493 回答
1

您可能想查看spider.pyrobotsparser。除非那些自动执行您想要的操作,否则您可以使用BeautifulSoup自己深入研究 HTML 汤。

于 2010-06-15T09:45:25.823 回答