“pdf-parsing”的相关标签问题

0 投票

1 回答

456 浏览

ios - Pdf解析，如何解压文本

您好我正在尝试解析 pdf 文件，能够从 pdf 中提取文本，但是如果 pdf 被压缩（使用 flatedecode），我会得到垃圾字符，因此需要知道如何解压缩文本，以及如何知道使用的过滤器?

2011-11-14T09:55:22.557

0 投票

2 回答

8807 浏览

pdf - 在 Hadoop Map Reduce 中解析 PDF 文件

我必须在 Hadoop 的 Map Reduce 程序中解析 HDFS 中的 PDF 文件。所以我从 HDFS 获取 PDF 文件作为输入拆分，它必须被解析并发送到 Mapper 类。为了实现这个 InputFormat 我已经通过了这个链接。如何将这些输入拆分解析并转换为文本格式？

pdf hadoop mapreduce pdf-parsing

2012-02-24T08:41:13.527

0 投票

2 回答

5866 浏览

java - 从 PDF 中提取所有带有字符串位置的文本

这似乎是一个老问题，但是在花了半个小时搜索整个 SO 之后，我没有找到详尽的答案。

我正在使用 PDFBox，我想从 PDF 文件中提取所有文本以及每个字符串的坐标。我正在使用他们的PrintTextLocations示例（http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTextLocations.html），但是对于我正在使用的pdf类型（电子票）程序无法识别字符串，分别打印每个字符。输出是一个字符串列表（每个代表一个TextPosition对象），如下所示：

虽然我希望程序将字符串“sale”识别为唯一的TextPosition并给我它的位置。我还尝试使用setSpacingTolerance()andsetAverageCharacterTolerance() PDFTextStripper方法，在标准值之上和之下设置不同的值（仅供参考，分别为 0.5 和 0.3），但输出根本没有改变。我哪里错了？提前致谢。

java pdfbox pdf-parsing

2012-04-02T10:49:36.450

0 投票

1 回答

571 浏览

objective-c - iOS 中的 PDF 包

我一直在尝试能够提取 PDF 包中包含的 pdf 文档，但没有成功。我在任何地方都找不到任何文档或示例代码，但我知道这并非不可能，因为 Adobe Reader 应用程序和 PDFExpert 应用程序都支持它。他们可能有自己的解析器，我希望它不会变成那样......

任何将我指向正确方向的提示将不胜感激

编辑：很长一段时间后，我重新开始研究这个问题，终于弄明白了。特别感谢 iPDFDev 为我指明了正确的方向！！

下面是如何获取每个内部 CGPDFDocumentRef 的代码：

objective-c ios pdf core-graphics pdf-parsing

2012-04-17T18:17:07.137

0 投票

0 回答

663 浏览

java - 根据iText中的大小或颜色从PDF中提取文本

我有一些布局相似的 PDF 文件。

例如，它们的介绍部分具有相同的字体颜色和大小。

我想使用此文本属性信息从这些 PDF 文件中提取介绍部分，但我找不到任何方法。

例如，我将给出一个像#333333 这样的参数，它只从PDF 中返回#333333 颜色的文本。可能吗？

我使用 iText 库。

谢谢..

java pdf itext pdf-parsing

2012-05-10T18:37:24.390

0 投票

3 回答

9074 浏览

c# - 如何在pdf文件中找到空白页

我无法检测到 pdf 文件中的空白页。我已经在互联网上搜索了它，但找不到一个好的解决方案。

使用 Itextsharp 我尝试了页面大小，Xobjects。但他们没有给出确切的结果。

我试过了

但它返回错误答案的最长时间。我用过Itextsharp

代码如下...我正在使用Itextsharp库

对于 xobjects

对于内容流

对于文本内容

c#.net pdf itextsharp pdf-parsing

2012-06-09T15:30:32.233

0 投票

2 回答

1777 浏览

pdf - 从pdf中提取数据

如何从 pdf 文件中提取数据，主要是数据表等，是否有任何免费或开源工具可以直接进行。我必须处理大量文件

pdf extract pdf-parsing

2012-06-11T07:17:31.093

0 投票

0 回答

110 浏览

pdf - 导出嵌入的 Adobe PDF Reader 文本

我的 Windows 应用程序中有一个嵌入式 Adobe PDF 阅读器。当我打开某个 PDF 文件时，我需要手动选择该 PDF 中的文本并将其传输到文本框。我没有对 PDF 嵌入式组件做太多的工作。但我可以看到两个潜在的解决方案。要么在嵌入式组件中找到可以从中获取所选文本的位置，要么使用剪贴板剪切所选文本并将其传输到文本框。

谁能帮我这个？因此，坦率地说，我想知道如何在嵌入式 PDF 阅读器组件中访问文本（选择或未选择）的最佳方式。

pdf text components pdf-parsing

2012-06-14T22:23:47.407

0 投票

5 回答

15659 浏览

python - 使用 PDFMiner 解析没有 /Root 对象的 PDF

我正在尝试使用 PDFMiner python 绑定从大量 PDF 中提取文本。我编写的模块适用于许多 PDF，但是对于 PDF 的子集，我得到了这个有点神秘的错误：

ipython 堆栈跟踪：

当然，我立即检查了这些 PDF 是否已损坏，但它们可以正常阅读。

尽管没有根对象，有没有办法阅读这些 PDF？我不太确定从这里去哪里。

非常感谢！

编辑：

我尝试使用 PyPDF 来获得一些差异诊断。堆栈跟踪如下：

Quonux 建议 PDFMiner 在到达第一个 EOF 字符后停止解析。这似乎暗示了其他情况，但我非常无能为力。有什么想法吗？

python pypdf pdf-parsing pdf-manipulation

2012-07-08T16:06:40.060

0 投票

3 回答

2846 浏览

java - 解析 PDF 时出现奇怪的空格

我需要解析一个 PDF 文档。我已经实现了解析器并使用了iText库，到目前为止它可以正常工作。

但是不，我需要解析另一个在单词中间出现非常奇怪的空格的文档。例如，我得到：

Vo rber eitung auf die Motorr adsaison。Viele Motorr adf ahr er

所有粗体字都应该连接起来，但 PDF 解析器会以某种方式在字词中添加空格。但是当我将 PDF 中的内容复制并粘贴到文本文件中时，我没有得到这些空格。

首先，我认为这是因为我正在使用 PDF Parsing 库，但对于另一个库，我也遇到了完全相同的问题。

我查看singleSpaceWidth了解析后的单词，我注意到它总是在变化，当它添加一个空格时。我试图手动将它们放在一起。但由于没有真正的模式来重新组合单词，这几乎是不可能的。

有没有其他人有类似的问题，甚至有解决该问题的方法？

根据要求，这里有更多信息：

iText 版本 5.2.1
http://prine.ch/whitespacesProblem.pdf（链接到 pdf）

使用 SemTextExtractionStrategy 解析：

这里是实际解析文本的 SemTextExtractionStrategy 方法。在那里，我在每个解析的单词之后手动添加了一个空格，但它确实在检测中拆分了单词：

这是整个 SemTextExtraction 类，但在那里它只调用上面的方法（parseText）：

java pdf whitespace itext pdf-parsing

2012-08-10T12:36:36.827

问题标签 [pdf-parsing]

Reference