自动计算 .doc 或 .docx 文件中的字符和/或单词的可靠方法是什么?
唯一真正的要求是相当准确和相当可靠的计数。
它需要处理包含拉丁文字以外的其他内容的文档,因此在大多数情况下计算字符就足够了。
计数不一定需要与Word的匹配,但越接近越好。
由于有大量不同的应用程序可以生成 .doc 文件,因此无法对任何内容进行计数是可以的,但这种情况需要可捕获,因此我们知道计数可能不准确。对于所有其他情况,计数必须在至少 99% 的时间内达到至少 99% 的准确率。
我对所涉及的技术持开放态度,但可以在 *NIX 命令行上运行的东西将是非常受欢迎的。
有没有合理的解决方案?