1

我已经做了很长一段时间了,我能发现的只是这个pdf2dom解析器,可能是这个的逆向工程版本。无论如何,这是我的问题。对于任何渲染引擎,它的输入应该是数据流(在我的例子中是 pdf 内容),它的输出应该是选定的格式(在我的例子中是 DOM、HTML 和 CSS)。

  1. 但是,不是使用 java 或 c++,我是否有可能从服务器获取“pdf 数据”流(这是我不知道的)并存储到 javascript 变量中并使用 javascript 呈现并附加它到 DOM?

  2. 原始“pdf数据”如何出现(是否有任何特定格式..等)?

欢迎所有输入。

注意:应该与 IE 兼容。

4

2 回答 2

6

它已经完成了。结果是pdf.js。请注意,它是通过将 PDF 渲染到画布上来工作的。这样可以保证结果;目前 PDF 的某些功能在画布之外是不可能的。

于 2011-12-19T10:19:32.920 回答
2

PDF 通常是 PostScript + 选项的子集,用于嵌入 Flash、JavaScript 和各种其他内容。

将 PDF 简单地翻译成 HTML (/DOM),并让它以正确的方式呈现几乎是不可能的。例如,PDF 使用 JPEG 图像,但这里和那里有细微的变化,这意味着您必须先转换它们才能在其他任何地方使用。尝试阅读 PDF.js-guys 中的一些演示文稿,您会发现相当长的 WTF 列表。

但是,如果您只有简单的 PDF(纯文本;没有图像等)并且除了最简单的布局之外不关心保留任何内容,您应该能够从 PDF 中刮出字符串数据并将其放入 DOM .

然而,就我个人而言,我认为强制用户使用插件(flash/acrobat/...)或渲染 PDF 的服务器端并将它们作为图像提供给浏览器会更简单。

于 2011-12-19T11:00:10.523 回答