你绝对可以做到这一点;但是 Excel 并不是进行解析的最佳工具(尽管我已经做到了!人们说这是不可能的——它可以使用异步 Windows API 调用来完成;祝一切顺利......)
您要问的第一个问题是该站点是否是动态的。它是否即时产生结果?另一个问题是:它们的 URL 约定是否一致?(换句话说:您可以为结果添加书签并在不同的会话中返回它们,而无需做任何事情,只需登录该站点......)
如果站点是静态的或具有一致的 URL 查询机制(我们在 HTML 中说:Web 查询是“GET”而不是“POST”表单......),您可以使用面向解析器的良好语言,如 Python使用访问网页的库;谷歌中应该有很多例子。在您完成所有调试并且它可靠地工作之后(还测试它是否智能地报告您无法访问该站点的情况;为此暂时中断您的网络连接......),您可以从 Excel 宏外壳到Python 脚本。诀窍是 Excel 中的普通脱壳不会阻塞您的脱壳命令,而是异步运行。所以再次使用谷歌,你可以找到一个 Windows API 调用,你可以从 Excel 到 shell 同步到你的检索任务(如果你在它完成之前没有阻止它,
看到这个设计的重点了吗?模块化的。如果您的解析中存在错误,只需查看 CSV 就更容易确定。而且您正在利用专业化:您正在使用一种专为解析而设计的编程语言(Python,无论如何......);VBA 并不是真正的解析语言。
如果不是静态网页,而是需要创建唯一条目的动态网页,该怎么办?然后,除了使用来自 Excel 宏的 bizarro Windows API 调用之外,您还可以使用 Greasemonkey 或 C# 制作动态解析脚本。Greasemonkey 是 Firefox 的一个插件,可让您使用 Javascript 编写网站交互脚本。这是相当直观的。如果您采用这种方法,您可以在 Firefox 浏览器中为您配置了预定义的 Greasemonkey 脚本的页面提供外壳。同样,Greasemonkey 可以生成数据的文本文件,并且以后可以很容易地对其进行调试。我听到的另一个选择是 C#;我从来没有尝试过,因为它是微软特有的,但我看到很多商店都是这样做的。还有一个Java解析包叫HTMLunit,但我在尝试在网页上模拟 Javascript 事件时发现它坏了。您可以查看的其他 HTML 解析器是 Jerry 和 Cobra;还有一种叫做 Selenium 的新产品。我发现 Greasemonkey 是最可靠的,因为它使用实际的浏览器进行操作;然而,除了 Selenium 之外,这些其他产品都会对浏览器进行虚拟复制,但不幸的是,它们经常无法做到这一点。有些人甚至不费心去复制可能在网页上的 Javascript(这通常是网站页面呈现方式的肉和土豆!)这些其他产品对浏览器进行虚拟复制,但遗憾的是经常无法做到这一点。有些人甚至不费心去复制可能在网页上的 Javascript(这通常是网站页面呈现方式的肉和土豆!)这些其他产品对浏览器进行虚拟复制,但遗憾的是经常无法做到这一点。有些人甚至不费心去复制可能在网页上的 Javascript(这通常是网站页面呈现方式的肉和土豆!)
玩得开心。这是游泳池的最深处,但它会让你忙碌并获得报酬。