3

如何在客户端和任何浏览器中仅使用 javascript 从 pdf 文件中提取数据?

4

2 回答 2

2

pdf.js 是一个 JavaScript pdf 阅读器:http: //mozilla.github.com/pdf.js/

一些类似的项目:

如果您询问如何加载文件,这可以通过 ajax 请求来完成,但您将无法直接读取文件内容。

于 2012-12-13T23:43:04.013 回答
-1

你要问的几乎是不可能的。

PDF 是一种重量级格式,针对大型复杂文档的高效显示进行了优化,而不是针对进一步处理进行了优化。(事实上​​,PDF 文档主要由绝对位于页面上的字母形状和其他图形组成。任何表示“文本段落”的数据都是标记 PDF 的可选功能。)

文本提取往往是(通常是昂贵的)PDF 库的一个功能,据我所知,Javascript 不存在这样的库。Scribd 和 Google Docs 这样做,但他们可能不分享如何,我猜他们是在服务器端这样做的。

tl; dr: PDF,作为一种格式,对此很糟糕。除非您的应用程序的全部重点基本上是从 PDF 中提取文本,否则您最好花时间弄清楚如何不必这样做。

于 2012-12-13T23:32:07.090 回答