是否有任何众所周知的解决方案满足/超过以下要求?
- 从多种非图形文档格式到 HTML 的转换(例如 doc<->HTML、pdf<->html、odt<->html 等)
- 命令行或 API(Java API 更好)
- 跨平台
- 商业或开源
是否有任何众所周知的解决方案满足/超过以下要求?
OpenOffice 具有丰富的 API,支持在各种支持的格式之间进行转换。看看这个问题。它建议使用JODConverter。
我(已经写了一个 Tex/LaTeX -> HTML 和 ASCII 文本以及 RTF 转换器),会说这将是一项艰巨的任务。
问题在于,这些不同的“文档”格式旨在用于不同的目的。虽然在其中一些格式之间确实存在这样的转换工具,但在“文档”的结构、含义和实现方面通常存在概念上的差异,并且经常需要权衡一种格式支持的功能以将它们组合在一起另一个可接受的输出。例如,PDF 在显示、精确定位和对字体的支持方面非常强大,而 HTML 更关心结构,实际上对这些东西没有考虑(没有 CSS)。
我很好奇,当通常有人只是想要一个转换程序时,您如何设想使用这样的 API?