etl - 对 Web 表单进行逆向工程

Question

我有一个网站，我从中下载 2-3 MB 的原始数据，然后将其输入 ETL 流程以将其加载到我的数据集市中。不幸的是，数据提供者是美国农业部 (USDA)，他们不允许通过 FTP 下载。他们要求我使用网络表单来选择我想要的元素，点击 2-3 个屏幕并最终点击下载文件。我想自动化这个下载过程。我不是网络开发人员，但不知何故，我似乎应该能够使用一些工具来准确地告诉我从最终请求到服务器的 put/get/magic 是什么。如果我有一个工具说“将这些参数传递给这个 url 并等待响应”，那么我可以在 Perl 中组合一些东西来自动化这个过程。

我意识到，如果我解构他们的所有 5 个页面并阅读 JavaScript 包含的内容并将我的愈合点按 3 次，我可以从我可以访问的内容中获取此信息。但我想要一个更快、更直接的路径，不需要我手动解析他们所有的 JS。

重述最后一个问题：是否有工具或方法可以清楚地显示从 Web 表单发送的最终请求请求是什么以及它是如何构造的？

score 1 · Accepted Answer

使用 Fiddler2 作为代理查看来回传递的内容。我在其他类似情况下成功地做到了这一点

主页在这里：http ://www.fiddler2.com/fiddler2/

score 1 · Accepted Answer

篡改者最好的朋友（这些是 Firefox 扩展，你也可以使用类似Wireshark的东西）

HTTPFox

篡改数据

祝你好运

score 0 · Accepted Answer

0

与其他回复一样，除了我选择的工具是查尔斯

于 2008-11-20T01:32:59.010 回答

score 0 · Accepted Answer

使用 Web 测试工具包，比如Watir和 Ruby 怎么样？

易于填写表格..只需使用输出..

score 0 · Accepted Answer

使用WatiN并将其与 WatiN TestRecorder (Google for it) 结合使用

它可以“模拟”坐在浏览器前的用户输入您可以从您自己的 C# 代码中提供的值...

etl - 对 Web 表单进行逆向工程

5 回答 5

Related

Reference