我经常发现自己需要为内部目的进行一些简单的屏幕抓取(即我使用的第三方服务仅通过 HTML 发布报告)。我现在至少有两三个案例。我可以使用 apache httpclient 并创建所有必要的屏幕抓取代码,但这需要一段时间。这是我通常的过程:
- 在网站上打开 Charles Proxy,看看发生了什么。
- 开始使用Apache HttpClient写一些java代码,处理cookies,多个请求
- 使用 Jericho HTML 来处理 HTML 的解析。
我希望我可以快速“记录我的会话”,然后参数化因会话而异的内容。想象一下,只是使用 Charles 来获取所有请求 HTTP,然后参数化相关的查询字符串或发布参数。瞧,我有一个可重用的 http 脚本。
有什么可以做到这一点的吗?我记得当我曾经在一家大公司工作时,曾经使用过 Mercury Interactive 的一个名为 Load Runner 的工具,它本质上是一种很好的方法来记录 http 会话并使其可重用(用于测试目的)。不幸的是,该工具非常昂贵。