9

我的任务是找到一种将大量 .docx 文件转换为 docbook 5 的方法。目前,我们在 openoffice 中打开文件并保存到 docbook。这是一项耗时的任务,但我相信有更好的方法。然后将这些文件进一步处理到我们的自定义放松 NG 模式。因此,这种转换不需要完美无缺。我环顾四周,并将继续调查一些线索,但没有发现任何有用的东西。

看着Convert doc/docx to semantic HTML他们建议upCast,但这似乎不适合我的需要。

我正在寻找可以从命令行免费使用的东西。我最终想批量处理我们的文件。我已经为这些环境添加了 linux、python 和 java 标签,这些是我最舒服的环境,但愿意为正确的解决方案而努力。在我出去重新发明轮子之前,我正在尝试做一些研究。

4

3 回答 3

8

冒着从 SX 获得考古学家徽章的风险,答案应该包括对Pandoc的引用。这不依赖于开放式办公室。

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx

于 2016-08-25T01:03:39.513 回答
7

有几种方法可以编写脚本,既可以使用外部脚本,也可以使用 OpenOffice 中的脚本。有关一些示例,请参见以下链接:

上面的一些链接没有使用 Java 或 Python,但原则仍然适用,并且脚本通常足够短,可以移植(第一个示例是 Ruby,但由于简单,它是我个人的最爱)。

于 2011-06-13T17:37:15.720 回答
3

您可以在服务器模式下运行 openoffice 并将文档提供给它,而无需手动打开每个文件。

一种方式: http ://code.google.com/p/bungeni-editor/wiki/RunningTheJODConverterServer

于 2011-06-13T15:33:00.103 回答