1

这是一个很长的故事,但我正试图从尖尖的头发老板那里拯救一个内部网站,他们不再认为它有任何价值,并且会在未来的某个时候轻弹开关。我觉得所包含的信息很重要,后代会想要使用它。不,这不是一些成人网站,但由于它是一些大公司,我不能再说什么了。

问题是,该网站是一堆 ASP 和 Flash,只能在 IE7 下运行,甚至在 IE8 和 32 位下也有问题。所有的 url 都是会话风格的,而且都是胡言乱语。Flash 对象本身通过 GET 请求向 ASP 对象提取额外信息。它的设计非常糟糕。:)

所以我的想法是在浏览整个站点时进行 tcpdump。然后以某种方式将每个 GET 的结果转储到 sql 数据库中。然后稍微弄乱主机文件,将每个请求重定向到某个 cgi 脚本,该脚本将在数据库中查找匹配的 get 请求并返回数据。因此,整个站点将位于 URL/Data 密钥对中的 SQL 数据库中。平面文件也可以工作。

理论上,我认为这是解决这个问题的唯一方法。我看到的唯一问题是他们是否做了一些客户端 ActiveX/Flash 的东西,这些东西会生成每次都会不同的会话 URL。

无论如何,我知道 Perl,而且有了正确的模块,这个想法似乎很简单,所以我认为我可以完成大部分工作,但在开始之前我对任何其他想法持开放态度。也许这已经存在?

感谢您的任何意见。

4

1 回答 1

2

要捕获我不会使用tcpdump,但可以使用爬虫本身或可以调整以保存所有内容的 webproxy,例如FiddlerSquidmod_proxy

于 2012-02-15T10:02:51.323 回答