0

我在一个 Excel 文档中有 500 个 Wikipedia/Wikimedia Wiki、Talk Pages 和历史页面的链接,我想解析这些链接以确定有多少 Wiki 在 Talk 页面中提到“广告”或“促销”,多长时间平均 Wiki 是多少,编辑的频率等。

我已经想出了如何编写一个 Visual Basics 用户定义函数来获取完整的 HTML。是否有插件或其他方式来获取两个标签或标识符之间的文本 - 因为它出现在屏幕上 - 所以我可以提取我需要的信息?

与专业开发人员相比,我是一名商业专业人士,编码经验非常有限。但如果你能指出我正确的方向和一些好的教程,我可以学习。如果有人可以提供帮助,我也有兴趣向某人支付一点钱。

4

1 回答 1

0

您可以使用 XML Parser 和 Regex 在 HTML 文档中搜索文本。

要获得在浏览器中看到的文本,请编写一个函数来删除所有标签。虽然,它可能并不总是准确的,因为 CSS 和 Javascript 可以改变屏幕上可见的内容。

于 2011-12-05T15:12:08.717 回答