我想将 doc/docx 文档转换为语义 HTML。
一些愿望/要求:
语义 HTML,例如文档中的标题是 <h1>、<h2> 等,表格是 <table> 等等。
最好能处理标题、列表、表格和图像。图表和数学公式是一个不错的附加功能。
• 不必直接从 doc/docx 转换为 html,可以使用中间格式,例如 xml 或 docbook。
• 应该以编程方式工作,并处理大量文档。
到目前为止,我找到的最接近解决方案的是http://holloway.co.nz/docvert/index.html,但不幸的是有很多错误,用户群很小,它无法处理很多文件。更多的是概念证明。