问题标签 [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - Pdf解析,如何解压文本
您好我正在尝试解析 pdf 文件,能够从 pdf 中提取文本,但是如果 pdf 被压缩(使用 flatedecode),我会得到垃圾字符,因此需要知道如何解压缩文本,以及如何知道使用的过滤器?
pdf - 在 Hadoop Map Reduce 中解析 PDF 文件
我必须在 Hadoop 的 Map Reduce 程序中解析 HDFS 中的 PDF 文件。所以我从 HDFS 获取 PDF 文件作为输入拆分,它必须被解析并发送到 Mapper 类。为了实现这个 InputFormat 我已经通过了这个链接。如何将这些输入拆分解析并转换为文本格式?
java - 从 PDF 中提取所有带有字符串位置的文本
这似乎是一个老问题,但是在花了半个小时搜索整个 SO 之后,我没有找到详尽的答案。
我正在使用 PDFBox,我想从 PDF 文件中提取所有文本以及每个字符串的坐标。我正在使用他们的PrintTextLocations
示例(http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTextLocations.html),但是对于我正在使用的pdf类型(电子票)程序无法识别字符串,分别打印每个字符。输出是一个字符串列表(每个代表一个TextPosition
对象),如下所示:
虽然我希望程序将字符串“sale”识别为唯一的TextPosition
并给我它的位置。我还尝试使用setSpacingTolerance()
andsetAverageCharacterTolerance()
PDFTextStripper
方法,在标准值之上和之下设置不同的值(仅供参考,分别为 0.5 和 0.3),但输出根本没有改变。我哪里错了?提前致谢。
objective-c - iOS 中的 PDF 包
我一直在尝试能够提取 PDF 包中包含的 pdf 文档,但没有成功。我在任何地方都找不到任何文档或示例代码,但我知道这并非不可能,因为 Adobe Reader 应用程序和 PDFExpert 应用程序都支持它。他们可能有自己的解析器,我希望它不会变成那样......
任何将我指向正确方向的提示将不胜感激
编辑:很长一段时间后,我重新开始研究这个问题,终于弄明白了。特别感谢 iPDFDev 为我指明了正确的方向!!
下面是如何获取每个内部 CGPDFDocumentRef 的代码:
java - 根据iText中的大小或颜色从PDF中提取文本
我有一些布局相似的 PDF 文件。
例如,它们的介绍部分具有相同的字体颜色和大小。
我想使用此文本属性信息从这些 PDF 文件中提取介绍部分,但我找不到任何方法。
例如,我将给出一个像#333333 这样的参数,它只从PDF 中返回#333333 颜色的文本。可能吗?
我使用 iText 库。
谢谢..
c# - 如何在pdf文件中找到空白页
我无法检测到 pdf 文件中的空白页。我已经在互联网上搜索了它,但找不到一个好的解决方案。
使用 Itextsharp 我尝试了页面大小,Xobjects。但他们没有给出确切的结果。
我试过了
但它返回错误答案的最长时间。我用过Itextsharp
代码如下...我正在使用Itextsharp库
对于 xobjects
对于内容流
对于文本内容
pdf - 从pdf中提取数据
如何从 pdf 文件中提取数据,主要是数据表等,是否有任何免费或开源工具可以直接进行。我必须处理大量文件
pdf - 导出嵌入的 Adobe PDF Reader 文本
我的 Windows 应用程序中有一个嵌入式 Adobe PDF 阅读器。当我打开某个 PDF 文件时,我需要手动选择该 PDF 中的文本并将其传输到文本框。我没有对 PDF 嵌入式组件做太多的工作。但我可以看到两个潜在的解决方案。要么在嵌入式组件中找到可以从中获取所选文本的位置,要么使用剪贴板剪切所选文本并将其传输到文本框。
谁能帮我这个?因此,坦率地说,我想知道如何在嵌入式 PDF 阅读器组件中访问文本(选择或未选择)的最佳方式。
python - 使用 PDFMiner 解析没有 /Root 对象的 PDF
我正在尝试使用 PDFMiner python 绑定从大量 PDF 中提取文本。我编写的模块适用于许多 PDF,但是对于 PDF 的子集,我得到了这个有点神秘的错误:
ipython 堆栈跟踪:
当然,我立即检查了这些 PDF 是否已损坏,但它们可以正常阅读。
尽管没有根对象,有没有办法阅读这些 PDF?我不太确定从这里去哪里。
非常感谢!
编辑:
我尝试使用 PyPDF 来获得一些差异诊断。堆栈跟踪如下:
Quonux 建议 PDFMiner 在到达第一个 EOF 字符后停止解析。这似乎暗示了其他情况,但我非常无能为力。有什么想法吗?
java - 解析 PDF 时出现奇怪的空格
我需要解析一个 PDF 文档。我已经实现了解析器并使用了iText库,到目前为止它可以正常工作。
但是不,我需要解析另一个在单词中间出现非常奇怪的空格的文档。例如,我得到:
Vo rber eitung auf die Motorr adsaison。Viele Motorr adf ahr er
所有粗体字都应该连接起来,但 PDF 解析器会以某种方式在字词中添加空格。但是当我将 PDF 中的内容复制并粘贴到文本文件中时,我没有得到这些空格。
首先,我认为这是因为我正在使用 PDF Parsing 库,但对于另一个库,我也遇到了完全相同的问题。
我查看singleSpaceWidth
了解析后的单词,我注意到它总是在变化,当它添加一个空格时。我试图手动将它们放在一起。但由于没有真正的模式来重新组合单词,这几乎是不可能的。
有没有其他人有类似的问题,甚至有解决该问题的方法?
根据要求,这里有更多信息:
- iText 版本 5.2.1
- http://prine.ch/whitespacesProblem.pdf(链接到 pdf)
使用 SemTextExtractionStrategy 解析:
这里是实际解析文本的 SemTextExtractionStrategy 方法。在那里,我在每个解析的单词之后手动添加了一个空格,但它确实在检测中拆分了单词:
这是整个 SemTextExtraction 类,但在那里它只调用上面的方法(parseText):