我有大量的 MSWord 文档(大约 40,000 个),它们是邮件合并的结果(相同的主文档,不同的数据源)。
合并字段之一是可以具有文本“是”或“否”的文本字段。
有没有一种简单的方法可以列出哪些文档的合并字段设置为值“是”?(我预计大约有 10,000 个“是”文件。)
我会对任何方法感兴趣,无论是使用 Word 本身、Office 自动化、十六进制转储二进制文件和 grepping 以获取某些魔法,还是任何可以做这类事情的现成工具(perl 脚本、.NET 应用程序等) .
这些文件位于可从 Linux 和 Windows 机器访问的网络共享上(如果有必要,我可能会窃取 Mac 一段时间),所以我不太担心这些工具在哪个平台上运行......