我希望将任何格式转换为/从 HTML 转换。
我想支持 DOC、DOCX、PDF、ODT、RDF、DocBook 和 TXT。
我发现了很多格式到格式的转换实用程序,但为了便于实施,最好使用单个工具。随着供应商或开源项目扩展库,这也将使添加新格式变得更加容易。
理想的“集线器”格式是 HTML,但我也可以使用另一种集线器格式。
要在服务器端运行,最好是 Java 库,或者 C/C++ 库、COM 或命令行工具;但不是打印机驱动程序、在线服务或 GUI 工具。商业和开源都可以。
OpenOffice.org
从这个链接:
OpenOffice.org 鲜为人知的功能之一是它能够作为服务运行。你可以巧妙地利用这种能力。例如,您可以将 OpenOffice.og 变成一个转换引擎,并使用它通过基于 Web 的界面或命令行工具将文档从一种格式转换为另一种格式。JODConverter 可以帮助您释放 OpenOffice.org 的文件转换功能。
这听起来像你在找什么。这一切也都在 Java 中。
这个链接告诉你更多关于上面提到的JODConverter的信息。
我不相信这样的实用程序/转换器已经存在,因为很难合理地进行某些转换。例如,您将如何处理 HTML 到 TXT 到 HTML 的转换?你会剥去什么?您将如何用纯文本表示不同的 HTML 元素?此外,您将如何处理内容中的内容,例如将 TXT 中的 XML 转换为 DOCX,然后再转换为 XHTML?
也就是说,如果我要为此目的制作一个转换器,我会从Apache POI开始,它是一个用于处理 Office 文档的库。然后我会使用iText进行 PDF 连接,确保 [Office 格式] <-> PDF 转换能够像我希望的那样健壮,然后添加JDOM进行 XML 处理,测试 [Office 格式] <-> XML 和 PDF <-> XML 可以按我的意愿工作,依此类推,你懂的。我会特别避免自己实现文件类型处理程序,因为那时我很可能会重新发明轮子。
这是一个不平凡的问题。例如,上个月我一直在寻找一种强大的 HTML+CSS 到 PHP 中的 PDF 转换,尽管我发现了(从那个问题)Prince XML,但我只设法让一个可靠地工作,尽管速度非常慢(html2pdf) ,我的初步测试表明它是一个 sperb 产品。然而它很昂贵。
我建议将 XML 作为“集线器”格式,然后将您的样式信息分离到 XSLT 中。