javascript - 仅使用 javascript 从 pdf 文件中提取文本

Question

如何在客户端和任何浏览器中仅使用 javascript 从 pdf 文件中提取数据？

score 2 · Accepted Answer

pdf.js 是一个 JavaScript pdf 阅读器：http: //mozilla.github.com/pdf.js/

一些类似的项目：

如果您询问如何加载文件，这可以通过 ajax 请求来完成，但您将无法直接读取文件内容。

score -1 · Accepted Answer

你要问的几乎是不可能的。

PDF 是一种重量级格式，针对大型复杂文档的高效显示进行了优化，而不是针对进一步处理进行了优化。（事实上，PDF 文档主要由绝对位于页面上的字母形状和其他图形组成。任何表示“文本段落”的数据都是标记 PDF 的可选功能。）

文本提取往往是（通常是昂贵的）PDF 库的一个功能，据我所知，Javascript 不存在这样的库。Scribd 和 Google Docs 这样做，但他们可能不分享如何，我猜他们是在服务器端这样做的。

tl; dr： PDF，作为一种格式，对此很糟糕。除非您的应用程序的全部重点基本上是从 PDF 中提取文本，否则您最好花时间弄清楚如何不必这样做。

2 回答 2