如何在客户端和任何浏览器中仅使用 javascript 从 pdf 文件中提取数据?
问问题
5108 次
2 回答
2
pdf.js 是一个 JavaScript pdf 阅读器:http: //mozilla.github.com/pdf.js/
一些类似的项目:
- 对于 docx 和 xlsx:http ://blog.innovatejs.com/?p=184
- jsPDF 是一个 pdf 生成器:https ://github.com/MrRio/jsPDF
如果您询问如何加载文件,这可以通过 ajax 请求来完成,但您将无法直接读取文件内容。
于 2012-12-13T23:43:04.013 回答
-1
你要问的几乎是不可能的。
PDF 是一种重量级格式,针对大型复杂文档的高效显示进行了优化,而不是针对进一步处理进行了优化。(事实上,PDF 文档主要由绝对位于页面上的字母形状和其他图形组成。任何表示“文本段落”的数据都是标记 PDF 的可选功能。)
文本提取往往是(通常是昂贵的)PDF 库的一个功能,据我所知,Javascript 不存在这样的库。Scribd 和 Google Docs 这样做,但他们可能不分享如何,我猜他们是在服务器端这样做的。
tl; dr: PDF,作为一种格式,对此很糟糕。除非您的应用程序的全部重点基本上是从 PDF 中提取文本,否则您最好花时间弄清楚如何不必这样做。
于 2012-12-13T23:32:07.090 回答