问题标签 [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
456 浏览

ios - Pdf解析,如何解压文本

您好我正在尝试解析 pdf 文件,能够从 pdf 中提取文本,但是如果 pdf 被压缩(使用 flatedecode),我会得到垃圾字符,因此需要知道如何解压缩文本,以及如何知道使用的过滤器?

0 投票
2 回答
8807 浏览

pdf - 在 Hadoop Map Reduce 中解析 PDF 文件

我必须在 Hadoop 的 Map Reduce 程序中解析 HDFS 中的 PDF 文件。所以我从 HDFS 获取 PDF 文件作为输入拆分,它必须被解析并发送到 Mapper 类。为了实现这个 InputFormat 我已经通过了这个链接。如何将这些输入拆分解析并转换为文本格式?

0 投票
2 回答
5866 浏览

java - 从 PDF 中提取所有带有字符串位置的文本

这似乎是一个老问题,但是在花了半个小时搜索整个 SO 之后,我没有找到详尽的答案。

我正在使用 PDFBox,我想从 PDF 文件中提取所有文本以及每个字符串的坐标。我正在使用他们的PrintTextLocations示例(http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTextLocations.html),但是对于我正在使用的pdf类型(电子票)程序无法识别字符串,分别打印每个字符。输出是一个字符串列表(每个代表一个TextPosition对象),如下所示:

虽然我希望程序将字符串“sale”识别为唯一的TextPosition并给我它的位置。我还尝试使用setSpacingTolerance()andsetAverageCharacterTolerance() PDFTextStripper方法,在标准值之上和之下设置不同的值(仅供参考,分别为 0.5 和 0.3),但输出根本没有改变。我哪里错了?提前致谢。

0 投票
1 回答
571 浏览

objective-c - iOS 中的 PDF 包

我一直在尝试能够提取 PDF 包中包含的 pdf 文档,但没有成功。我在任何地方都找不到任何文档或示例代码,但我知道这并非不可能,因为 Adob​​e Reader 应用程序和 PDFExpert 应用程序都支持它。他们可能有自己的解析器,我希望它不会变成那样......

任何将我指向正确方向的提示将不胜感激

编辑:很长一段时间后,我重新开始研究这个问题,终于弄明白了。特别感谢 iPDFDev 为我指明了正确的方向!!

下面是如何获取每个内部 CGPDFDocumentRef 的代码:

0 投票
0 回答
663 浏览

java - 根据iText中的大小或颜色从PDF中提取文本

我有一些布局相似的 PDF 文件。

例如,它们的介绍部分具有相同的字体颜色和大小。

我想使用此文本属性信息从这些 PDF 文件中提取介绍部分,但我找不到任何方法。

例如,我将给出一个像#333333 这样的参数,它只从PDF 中返回#333333 颜色的文本。可能吗?

我使用 iText 库。

谢谢..

0 投票
3 回答
9074 浏览

c# - 如何在pdf文件中找到空白页

我无法检测到 pdf 文件中的空白页。我已经在互联网上搜索了它,但找不到一个好的解决方案。

使用 Itextsharp 我尝试了页面大小,Xobjects。但他们没有给出确切的结果。

我试过了

但它返回错误答案的最长时间。我用过Itextsharp

代码如下...我正在使用Itextsharp

对于 xobjects

对于内容流

对于文本内容

0 投票
2 回答
1777 浏览

pdf - 从pdf中提取数据

如何从 pdf 文件中提取数据,主要是数据表等,是否有任何免费或开源工具可以直接进行。我必须处理大量文件

0 投票
0 回答
110 浏览

pdf - 导出嵌入的 Adob​​e PDF Reader 文本

我的 Windows 应用程序中有一个嵌入式 Adob​​e PDF 阅读器。当我打开某个 PDF 文件时,我需要手动选择该 PDF 中的文本并将其传输到文本框。我没有对 PDF 嵌入式组件做太多的工作。但我可以看到两个潜在的解决方案。要么在嵌入式组件中找到可以从中获取所选文本的位置,要么使用剪贴板剪切所选文本并将其传输到文本框。

谁能帮我这个?因此,坦率地说,我想知道如何在嵌入式 PDF 阅读器组件中访问文本(选择或未选择)的最佳方式。

0 投票
5 回答
15659 浏览

python - 使用 PDFMiner 解析没有 /Root 对象的 PDF

我正在尝试使用 PDFMiner python 绑定从大量 PDF 中提取文本。我编写的模块适用于许多 PDF,但是对于 PDF 的子集,我得到了这个有点神秘的错误:

ipython 堆栈跟踪:

当然,我立即检查了这些 PDF 是否已损坏,但它们可以正常阅读。

尽管没有根对象,有没有办法阅读这些 PDF?我不太确定从这里去哪里。

非常感谢!

编辑:

我尝试使用 PyPDF 来获得一些差异诊断。堆栈跟踪如下:

Quonux 建议 PDFMiner 在到达第一个 EOF 字符后停止解析。这似乎暗示了其他情况,但我非常无能为力。有什么想法吗?

0 投票
3 回答
2846 浏览

java - 解析 PDF 时出现奇怪的空格

我需要解析一个 PDF 文档。我已经实现了解析器并使用了iText库,到目前为止它可以正常工作。

但是不,我需要解析另一个在单词中间出现非常奇怪的空格的文档。例如,我得到:

Vo rber eitung auf die Motorr adsaison。Viele Motorr adf ahr er

所有粗体字都应该连接起来,但 PDF 解析器会以某种方式在字词中添加空格。但是当我将 PDF 中的内容复制并粘贴到文本文件中时,我没有得到这些空格。

首先,我认为这是因为我正在使用 PDF Parsing 库,但对于另一个库,我也遇到了完全相同的问题。

我查看singleSpaceWidth了解析后的单词,我注意到它总是在变化,当它添加一个空格时。我试图手动将它们放在一起。但由于没有真正的模式来重新组合单词,这几乎是不可能的。

有没有其他人有类似的问题,甚至有解决该问题的方法?

根据要求,这里有更多信息:

使用 SemTextExtractionStrategy 解析:

这里是实际解析文本的 SemTextExtractionStrategy 方法。在那里,我在每个解析的单词之后手动添加了一个空格,但它确实在检测中拆分了单词:

这是整个 SemTextExtraction 类,但在那里它只调用上面的方法(parseText):