问题标签 [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
asp-classic - 如何引用 Windows 内置的 PDF IFilter (dll) 接口以通过经典 ASP 提取 pdf 文档的文本和属性
我想提取 PDF 文件的文本和属性(作者、标题等)。
我需要在经典的 ASP 环境中从 pdf 文件中提取和解析文本。我阅读了另一篇关于使用随 Adobe Acrobat 9 安装的 PDF iFilter 驱动程序的文章,该驱动程序可以通过 COM 引用。
这可能吗?如果是这样,我该如何开始?
ruby-on-rails - Ruby:阅读 PDF 文件
我正在寻找一种快速可靠的方法来读取/解析 Ruby 中的大型 PDF 文件(在 Linux 和 OSX 上)。
到目前为止,我发现了相当古老且简单的 PDF-toolkit(一个pdftotext -wrapper)和PDF-reader,它们无法读取我的大部分文件。尽管这两个库提供了我正在寻找的功能。
我的问题:我错过了什么吗?有没有更适合(更快、更可靠)解决我的问题的工具?
database - 如何解析大量PDF
我有大量的 PDF,我希望能够逐句解析。是否有用于 MySQL(或其他一些数据库系统)的工具,用于将 PDF 转换为 mysql,然后一次读出一个句子?有没有其他工具可以做到这一点?我想象将所有 pdf 加载到数据库中,然后阅读将是最快的方式,但我真的不知道......
c# - 哪个是最好的 PDR 解析器?
我想从.pdf
文件中解析表格信息,并希望datagridview
在 C# 中显示该表格信息。我有什么选择?
pdf - PDF 交叉引用流
我正在开发一个 PDF 解析器/编写器,但我一直在生成交叉引用流。我的程序读取此文件,然后删除其线性化,并解压缩对象流中的所有对象。最后,它构建 PDF 文件并保存它。
当我使用正常的交叉引用和预告片时,这非常有效,正如您在此文件中看到的那样。
当我尝试生成交叉引用流对象时(导致此文件,Adobe Reader 无法查看它。
有没有人使用PDF的经验,可以帮助我搜索问题是什么?
请注意,交叉引用是文件 2 和文件 3 之间的唯一区别。前 34127 个字节是相同的。
如果有人需要解码后的参考流的内容,请下载此文件并在 HEX 编辑器中打开它。我一遍又一遍地检查这个参考表,但我找不到任何错误。但是字典似乎也可以。
非常感谢你的帮助!!!
更新
我现在已经完全解决了这个问题。您可以在此处找到新的 PDF 。
perl - Perl PDF逐行解析器?
我有一个 pdf,仅包含文本,没有特殊字符或图像等。是否有任何 Perl 模块(一直在查看 cpan 无济于事)来帮助我逐行解析每一页?(将 PDF 转换为文本会产生不良结果和无法解析的数据)
谢谢,
java - pdf在java中解析为文本
我有一个阿拉伯语 PDF,我想使用 Java 将其解析为文本文档。我尝试了很多次,英语单词解析成功,但阿拉伯语单词没有。
任何人都可以推荐一个可以正确转换阿拉伯语单词的解决方案吗?
iphone - 使用适用于 iPhone 的 iOS sdk 解析图像的 pdf
我正在开发一个包含 pdf 阅读的应用程序。我找到了如何通过 CGPDF API 逐页显示 pdf 文件。我需要知道的是,我们能否以某种方式解析 pdf 并查找页面是否包含特定图像,以及我们是否可以在该图像或页面上启用点击/触摸操作?我真正想做的是,如果一个页面包含一个图片,上面写着“Note”,点击它会打开另一个带有相关注释的视图。知道如何实现吗?或者任何替代解决方案?对不起,如果这个问题很幼稚。谢谢
c# - pdf内容流解析
我需要解析pdf的帮助,它有4层,每一层都有一个图形路径对象我不会做的是获取所有4个图形路径并将它们绘制在另一个具有相同宽度的pdf文件中像这个pdf一样高,我想把它们画在相同的位置。这是我开始编写的代码:
现在上面的代码用于获取所有图层数据并将它们分成 4 个对象
这条线给了我 4 层图形二进制数据现在这是代表 1 层的 PDFMask 类
现在这是数据源的样子:
我正在寻找一些解析器(我更喜欢 pdfsharp 解析器),它可以将这些数据解析为一些图形对象,我可以在另一个 pdf 文档上使用它
java - 解析二进制文件时出错...(主要是 PDF)
我正在尝试使用 Apache Tika 通过对二进制文件使用 ByteArrayInputStream 来解析 pdf 文件...并且开始对某些 pdf 文件出错,并且对于某些它的解析非常好..早些时候我能够使用 Tika 解析相同的 pdf 文件,但是现在当我尝试使用 ByteArrayInputStream 时,我开始收到错误..我认为 ByteArray 有问题这是我得到的错误..
这是我的代码...
任何建议我做错了什么......!
更新:- 升级到 pdfbox 1.6.0 版本后,我开始收到一些 pdf 的此错误...
对于某些pdf,此错误...