我有一个网站,我从中下载 2-3 MB 的原始数据,然后将其输入 ETL 流程以将其加载到我的数据集市中。不幸的是,数据提供者是美国农业部 (USDA),他们不允许通过 FTP 下载。他们要求我使用网络表单来选择我想要的元素,点击 2-3 个屏幕并最终点击下载文件。我想自动化这个下载过程。我不是网络开发人员,但不知何故,我似乎应该能够使用一些工具来准确地告诉我从最终请求到服务器的 put/get/magic 是什么。如果我有一个工具说“将这些参数传递给这个 url 并等待响应”,那么我可以在 Perl 中组合一些东西来自动化这个过程。
我意识到,如果我解构他们的所有 5 个页面并阅读 JavaScript 包含的内容并将我的愈合点按 3 次,我可以从我可以访问的内容中获取此信息。但我想要一个更快、更直接的路径,不需要我手动解析他们所有的 JS。
重述最后一个问题:是否有工具或方法可以清楚地显示从 Web 表单发送的最终请求请求是什么以及它是如何构造的?