1

我正在尝试将 Docx 转换为 Html,但 Docx 可能包含图像、WMF 格式的 MathType 方程和tex$分隔符的格式的单词方程。

我尝试使用 pandoc 和 LibreOffice 将 Docx 转换为 Html:

使用 pandoc 的问题:Pandoc 跳过 MathType 方程,所以我必须阅读 document.xml 并使用gimp's convert命令行工具将 WMF 转换为 png。

这使得一些方程的格式非常不可读。

使用 libreoffice 的问题:它实际上将整个文档转换为 HTML 非常好,但是在转换过程中单词方程会从侧面切掉。

我想要的是一些可以将 Docx 转换为 Html 的工具,它将 MathType 方程和单词方程都转换为tex格式。

我想最好在 ruby​​ 中执行此操作,但也欢迎任何解决方法或想法。

谢谢。

4

1 回答 1

2

pandoc docx 阅读器仅支持OMML 数学,不支持旧的 MathType。

您可以编写一个pandoc 过滤器,在 pandoc AST 中找到数学(它将作为纯文本存在)并将它们转换为pandoc 数学元素,pandoc LaTeX 编写器将自动转换为 TeX 数学。

于 2016-09-15T21:33:35.590 回答