问题标签 [pdf-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

153 问题

0 投票

1 回答

1041 浏览

asp-classic - 如何引用 Windows 内置的 PDF IFilter (dll) 接口以通过经典 ASP 提取 pdf 文档的文本和属性

我想提取 PDF 文件的文本和属性（作者、标题等）。

我需要在经典的 ASP 环境中从 pdf 文件中提取和解析文本。我阅读了另一篇关于使用随 Adobe Acrobat 9 安装的 PDF iFilter 驱动程序的文章，该驱动程序可以通过 COM 引用。

这可能吗？如果是这样，我该如何开始？

Sanjeev

2009-04-15T17:39:27.063

0 投票

6 回答

26483 浏览

ruby-on-rails - Ruby：阅读 PDF 文件

我正在寻找一种快速可靠的方法来读取/解析 Ruby 中的大型 PDF 文件（在 Linux 和 OSX 上）。

到目前为止，我发现了相当古老且简单的 PDF-toolkit（一个pdftotext -wrapper）和PDF-reader，它们无法读取我的大部分文件。尽管这两个库提供了我正在寻找的功能。

我的问题：我错过了什么吗？有没有更适合（更快、更可靠）解决我的问题的工具？

ruby-on-rails ruby pdf pdf-parsing

2009-04-21T15:31:45.757

0 投票

1 回答

274 浏览

database - 如何解析大量PDF

我有大量的 PDF，我希望能够逐句解析。是否有用于 MySQL（或其他一些数据库系统）的工具，用于将 PDF 转换为 mysql，然后一次读出一个句子？有没有其他工具可以做到这一点？我想象将所有 pdf 加载到数据库中，然后阅读将是最快的方式，但我真的不知道......

database pdf-parsing

2010-02-01T20:55:19.717

0 投票

3 回答

218 浏览

c# - 哪个是最好的 PDR 解析器？

我想从.pdf文件中解析表格信息，并希望datagridview在 C# 中显示该表格信息。我有什么选择？

c#.net winforms pdf pdf-parsing

2010-03-18T09:42:36.347

0 投票

2 回答

7824 浏览

pdf - PDF 交叉引用流

我正在开发一个 PDF 解析器/编写器，但我一直在生成交叉引用流。我的程序读取此文件，然后删除其线性化，并解压缩对象流中的所有对象。最后，它构建 PDF 文件并保存它。

当我使用正常的交叉引用和预告片时，这非常有效，正如您在此文件中看到的那样。

当我尝试生成交叉引用流对象时（导致此文件，Adobe Reader 无法查看它。

有没有人使用PDF的经验，可以帮助我搜索问题是什么？

请注意，交叉引用是文件 2 和文件 3 之间的唯一区别。前 34127 个字节是相同的。

如果有人需要解码后的参考流的内容，请下载此文件并在 HEX 编辑器中打开它。我一遍又一遍地检查这个参考表，但我找不到任何错误。但是字典似乎也可以。

非常感谢你的帮助！！！

更新

我现在已经完全解决了这个问题。您可以在此处找到新的 PDF 。

pdf pdf-generation pdf-parsing

2010-12-29T17:30:25.983

0 投票

1 回答

986 浏览

perl - Perl PDF逐行解析器？

我有一个 pdf，仅包含文本，没有特殊字符或图像等。是否有任何 Perl 模块（一直在查看 cpan 无济于事）来帮助我逐行解析每一页？（将 PDF 转换为文本会产生不良结果和无法解析的数据）

谢谢，

perl pdf pdf-parsing

2011-02-16T20:27:54.203

0 投票

2 回答

1885 浏览

java - pdf在java中解析为文本

我有一个阿拉伯语 PDF，我想使用 Java 将其解析为文本文档。我尝试了很多次，英语单词解析成功，但阿拉伯语单词没有。

任何人都可以推荐一个可以正确转换阿拉伯语单词的解决方案吗？

java pdf ocr pdf-parsing

2011-03-07T09:11:06.953

0 投票

0 回答

1953 浏览

iphone - 使用适用于 iPhone 的 iOS sdk 解析图像的 pdf

我正在开发一个包含 pdf 阅读的应用程序。我找到了如何通过 CGPDF API 逐页显示 pdf 文件。我需要知道的是，我们能否以某种方式解析 pdf 并查找页面是否包含特定图像，以及我们是否可以在该图像或页面上启用点击/触摸操作？我真正想做的是，如果一个页面包含一个图片，上面写着“Note”，点击它会打开另一个带有相关注释的视图。知道如何实现吗？或者任何替代解决方案？对不起，如果这个问题很幼稚。谢谢

iphone cgpdfdocument pdf-parsing

2011-03-17T23:52:59.270

0 投票

1 回答

2390 浏览

c# - pdf内容流解析

我需要解析pdf的帮助，它有4层，每一层都有一个图形路径对象我不会做的是获取所有4个图形路径并将它们绘制在另一个具有相同宽度的pdf文件中像这个pdf一样高，我想把它们画在相同的位置。这是我开始编写的代码：

现在上面的代码用于获取所有图层数据并将它们分成 4 个对象

这条线给了我 4 层图形二进制数据现在这是代表 1 层的 PDFMask 类

现在这是数据源的样子：

我正在寻找一些解析器（我更喜欢 pdfsharp 解析器），它可以将这些数据解析为一些图形对象，我可以在另一个 pdf 文档上使用它

c#pdf-generation pdfsharp pdf-parsing

2011-08-05T01:05:31.930

0 投票

1 回答

4619 浏览

java - 解析二进制文件时出错...（主要是 PDF）

我正在尝试使用 Apache Tika 通过对二进制文件使用 ByteArrayInputStream 来解析 pdf 文件...并且开始对某些 pdf 文件出错，并且对于某些它的解析非常好..早些时候我能够使用 Tika 解析相同的 pdf 文件，但是现在当我尝试使用 ByteArrayInputStream 时，我开始收到错误..我认为 ByteArray 有问题这是我得到的错误..

这是我的代码...

任何建议我做错了什么......！

更新：- 升级到 pdfbox 1.6.0 版本后，我开始收到一些 pdf 的此错误...

对于某些pdf，此错误...

java parsing apache-tika pdf-parsing

2011-09-20T17:28:23.523

1 2 3 4 5 6 7 8 9 10

问题标签 [pdf-parsing]

Reference