4

我正在尝试编写一个 Python 函数,给定文档文件的路径,返回该文档中的单词数。使用 .txt 文件很容易做到这一点,并且有一些工具可以让我一起破解对一些更复杂的文档格式的支持,但我想要一个真正全面的解决方案。

查看 OpenOffice.org 的 py-uno 脚本接口和支持的格式列表,将文档加载到无头 OOo 中并调用其字数统计函数似乎是理想的。但是,我找不到任何超出基本文档生成的 py-uno 教程或示例代码,甚至我发现的代码片段都已经过时了五年,不再起作用。

无论是否使用 OOo 和 Uno,我如何才能获得各种格式文档的可靠字数?

4

2 回答 2

3

将文档加载到无头 OOo 中 并调用其字数统计函数

PyODConverter是最近 (11-2009) 使用 OOo 转换多种文件类型的脚本。查看脚本,它基本加载了所有 OOo 支持的文档。

这是您将 OOo 作为无头服务启动的方式:

soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard

然后你只需要编写一个在命令行上调用 OOo 的小型引导程序,运行你的脚本,然后关闭 OOo。


于 2010-02-13T11:45:40.353 回答
2

这可能不是您的选择,但如果是的话 - 您可以将文档上传到 Google Docs,然后以 .txt 格式导出。谷歌通常在转换方面做得很好。

您可以在此处找到相关 API:http ://code.google.com/intl/pl/apis/documents/docs/1.0/developers_guide_python.html

查看登录、上传和导出部分。

于 2010-02-13T08:30:55.960 回答