我正在尝试编写一个 Python 函数,给定文档文件的路径,返回该文档中的单词数。使用 .txt 文件很容易做到这一点,并且有一些工具可以让我一起破解对一些更复杂的文档格式的支持,但我想要一个真正全面的解决方案。
查看 OpenOffice.org 的 py-uno 脚本接口和支持的格式列表,将文档加载到无头 OOo 中并调用其字数统计函数似乎是理想的。但是,我找不到任何超出基本文档生成的 py-uno 教程或示例代码,甚至我发现的代码片段都已经过时了五年,不再起作用。
无论是否使用 OOo 和 Uno,我如何才能获得各种格式文档的可靠字数?