我已经用谷歌搜索(没有任何运气)open source software that can convert doc, ppt, and pdf to HTML5.
(Scribd到底是做什么的)是否有与 Scribd 的转换类型等效的开源代码?
如果有人知道付费服务,那也可以。Scribd 有一个API,但它是用于 flash 查看器的。另外,我想托管自己的内容,因为我需要进一步控制转换后的 html 文档。
您不太可能找到能够做到这一切的单一产品,尤其是在开源世界中。您更有可能最终依赖于杂乱无章的东西,甚至可能需要链接一些转换器才能获得 HTML。(例如 PDF -> ps -> HTML)
OpenOffice 支持转换为 HTML,并且可以从命令行调用。
http://pdftohtml.sourceforge.net/看起来相当擅长将 pdf 转换为 html。
对于 Word ML 或 OpenXML 格式的 Doc,可以想象您可以使用 XSLT 转换,因为输入和输出格式都是 XML。我已经看到一些样式表在网络上浮动,但是 YMMV。
顺便说一句,为什么对开源有特定的要求?例如,MS Powerpoint 已经支持另存为 HTML。
Open Office 会将 pdf 转换为 html,但您会受到设计质量的影响。
我建议要么:Crocodoc作为付费服务(它为不同的平台提供不同的风格,例如Python、Ruby、Java、PHP允许开发人员使用他们的 API。)或等待官方的 Adobe 工具(它正在开发中)。
对于 PDF 到 HTML 的转换,pdf2htmlEX 似乎是一个非常好的工具(查看所有示例/示例):
http://wvware.sourceforge.net/
wvHtml:将您的 Word 文档转换为 HTML4.0。
可能: http ://www.abisource.com/ 但在这种情况下,它看起来像手动“打开文档”>“导出 html”,也许插件有帮助。不确定,您是什么意思:“可以转换的源软件”。
或者这个: http ://www.zope.org/Members/sf/NuxDocument
pdftohtml 也会给你一个 html 页面输出。但是你必须在它的图形界面上工作。因为它似乎不是很有交互性。
对于 pdf 有一个由 mozilla 启动的开源项目,它非常好:https ://github.com/mozilla/pdf.js/
您可以看到一个 hello world 示例:https ://github.com/mozilla/pdf.js/tree/master/examples/helloworld
对于其余的文档类型,我认为 LibreOffice 表示计划在 html5 中构建一些东西,但到目前为止还没有做任何事情。