javascript - 使用 javascript 将 PDF 转换为 DOM

Question

我已经做了很长一段时间了，我能发现的只是这个pdf2dom解析器，可能是这个的逆向工程版本。无论如何，这是我的问题。对于任何渲染引擎，它的输入应该是数据流（在我的例子中是 pdf 内容），它的输出应该是选定的格式（在我的例子中是 DOM、HTML 和 CSS）。

但是，不是使用 java 或 c++，我是否有可能从服务器获取“pdf 数据”流（这是我不知道的）并存储到 javascript 变量中并使用 javascript 呈现并附加它到 DOM？
原始“pdf数据”如何出现（是否有任何特定格式..等）？

欢迎所有输入。

注意：应该与 IE 兼容。

score 6 · Accepted Answer

它已经完成了。结果是pdf.js。请注意，它是通过将 PDF 渲染到画布上来工作的。这样可以保证结果；目前 PDF 的某些功能在画布之外是不可能的。

score 2 · Accepted Answer

PDF 通常是 PostScript + 选项的子集，用于嵌入 Flash、JavaScript 和各种其他内容。

将 PDF 简单地翻译成 HTML (/DOM)，并让它以正确的方式呈现几乎是不可能的。例如，PDF 使用 JPEG 图像，但这里和那里有细微的变化，这意味着您必须先转换它们才能在其他任何地方使用。尝试阅读 PDF.js-guys 中的一些演示文稿，您会发现相当长的 WTF 列表。

但是，如果您只有简单的 PDF（纯文本；没有图像等）并且除了最简单的布局之外不关心保留任何内容，您应该能够从 PDF 中刮出字符串数据并将其放入 DOM .

然而，就我个人而言，我认为强制用户使用插件（flash/acrobat/...）或渲染 PDF 的服务器端并将它们作为图像提供给浏览器会更简单。

2 回答 2