39

我已经用谷歌搜索(没有任何运气)open source software that can convert doc, ppt, and pdf to HTML5.Scribd到底是做什么的)是否有与 Scribd 的转换类型等效的开源代码?

如果有人知道付费服务,那也可以。Scribd 有一个API,但它是用于 flash 查看器的。另外,我想托管自己的内容,因为我需要进一步控制转换后的 html 文档

4

6 回答 6

15

您不太可能找到能够做到这一切的单一产品,尤其是在开源世界中。您更有可能最终依赖于杂乱无章的东西,甚至可能需要链接一些转换器才能获得 HTML。(例如 PDF -> ps -> HTML)

OpenOffice 支持转换为 HTML,并且可以从命令行调用。

http://pdftohtml.sourceforge.net/看起来相当擅长将 pdf 转换为 html。

对于 Word ML 或 OpenXML 格式的 Doc,可以想象您可以使用 XSLT 转换,因为输入和输出格式都是 XML。我已经看到一些样式表在网络上浮动,但是 YMMV。

顺便说一句,为什么对开源有特定的要求?例如,MS Powerpoint 已经支持另存为 HTML。

于 2010-09-03T07:15:54.287 回答
5

Open Office 会将 pdf 转换为 html,但您会受到设计质量的影响。

我建议要么:Crocodoc作为付费服务(它为不同的平台提供不同的风格,例如Python、Ruby、Java、PHP允许开发人员使用他们的 API。)或等待官方的 Adob​​e 工具(它正在开发中)。

于 2011-02-18T21:42:46.733 回答
3

对于 PDF 到 HTML 的转换,pdf2htmlEX 似乎是一个非常好的工具(查看所有示例/示例):

https://github.com/coolwanglu/pdf2htmlEX

于 2013-10-02T20:56:31.453 回答
1

http://wvware.sourceforge.net/

wvHtml:将您的 Word 文档转换为 HTML4.0。

可能: http ://www.abisource.com/ 但在这种情况下,它看起来像手动“打开文档”>“导出 html”,也许插件有帮助。不确定,您是什么意思:“可以转换的源软件”。

或者这个: http ://www.zope.org/Members/sf/NuxDocument

pdftohtml 也会给你一个 html 页面输出。但是你必须在它的图形界面上工作。因为它似乎不是很有交互性。

于 2010-08-24T21:12:06.600 回答
1

对于 pdf 有一个由 mozilla 启动的开源项目,它非常好:https ://github.com/mozilla/pdf.js/

您可以看到一个 hello world 示例:https ://github.com/mozilla/pdf.js/tree/master/examples/helloworld

对于其余的文档类型,我认为 LibreOffice 表示计划在 html5 中构建一些东西,但到目前为止还没有做任何事情。

于 2013-06-11T08:10:05.917 回答
-1

我知道这个问题有点老了,但是我发现了一个名为 flaxpaper http://flexpaper.devaldi.com/的新开源工具

于 2013-09-27T09:16:38.420 回答