我需要将数千个 .doc 文件转换为 HTML。这些文档包含 MathType 方程、Word 绘图(矢量图),而且绘图本身包含更多的方程对象。
通过 Microsoft.Office.Interop.Word,我设法将 .docs 保存为过滤的 HTML 和“未过滤的”HTML(最后一种模式具有生成多个 .wmz 文件的优势)。遗憾的是,MathType SDK 无法转换过程中生成的 wmz 文件中的每一个方程(SDK 附带的 wmf 示例被转换为 LaTeX 就好了..)。 加起来:
- 我需要知道哪些 wmf 文件是 MathType 方程,哪些是绘图;
- 我需要能够将作为 MathType 方程的 wmf 文件转换为 LaTeX。
- 我需要一些非常好的 wmf 到 svg 转换器来转换图纸,因为结果常常不符合我们的喜好;
- 我需要访问绘图中包含的数学类型方程。
所有这些都必须自动化,因为有数千个文件。
有这方面经验的人吗?