问题标签 [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
62299 浏览

parsing - 从 PDF 文件集合中提取表格内容

我有一堆 PDF - 可能有数百或数千。它们的格式并不完全相同,但它们中的任何一个都可能有一个或多个包含有趣信息的表,我想将这些信息收集到一个单独的数据库中。

当然,我知道我必须写一些东西才能做到这一点。Perl 对我来说是一个选择——或者也许是 Java。我真的不在乎什么语言,只要它是免费的(或者便宜的免费试用期,以确保它适合我的目的)。

我正在查看 CAM::Parse (使用草莓 Perl),但我不确定如何使用它来定位和提取文件中的表。我想我确实偏爱 Perl,但我真的想要一些可以可靠工作并且相当容易进行字符串操作的东西。

什么是这样的好方法?我站在第一方,所以如果 java(或 python 等)有更好的钩子,现在是了解它的好时机。一般指点好;入门代码将是强烈首选。

0 投票
1 回答
3353 浏览

python - Python PDFMiner 错误:“没有 /Root 对象!-这真的是 PDF 吗?”

我收到此错误“没有 /Root 对象!- 这真的是 PDF 吗?” 使用带有 Python 2.7 和PDFMiner版本 20110515 的我的 MAC 计算机。pdf 文件没有损坏,因为具有相同文件的相同程序在我的 PC 计算机上运行!我也尝试了许多 pdf,并且所有这些都存在此错误。关于我应该在我的 MAC 中更改什么以避免出现此错误的任何想法?

0 投票
3 回答
9721 浏览

python - 从 PDF 中提取表格

我正在尝试从 pdf文档中提取表格

我尝试了 pdf -> html -> 提取表的路线。我上面提到的pdf转换为html时会产生垃圾,可能是因为字体的原因,文档不是英文的。

使用 x 和 y 坐标提取 pdf 不是一个选项,因为此解决方案需要适用于来自上述 url 的未来 pdf,它将具有表格但并不总是在相同的位置。

请帮忙,

提前致谢。

0 投票
1 回答
2241 浏览

java - PDFTextStripper 解析错误的编码

结果包含类似

代替

当我将编码更改为 windows-1252 或 utf-8 时,结果没有改变。错误的 pdf 网址http://www.permaco.ch/fileadmin/user_upload/jobs/Inserat_SeLe_EE_rev.pdf

如何解析这个pdf?

0 投票
2 回答
3857 浏览

python - 寻找有关如何将 PDF 转换为结构化格式的建议

我想对即将举行的拍卖中列出的一些房产进行一些分析。不幸的是,进行拍卖的城市并没有以结构化的格式发布信息,而是提供了一份700 多页的 PDF 格式的拍卖房产。

我想知道社区是否对如何将所述 PDF 解析为结构化格式以插入数据库或创建属性电子表格有任何想法。

这是每个页面所代表的图像: 物业指南

这是一个列出一些属性的页面: 属性示例列表

我对 python 和 ruby​​ 很满意,所以编写解决方案的脚本没有任何问题,但是因为“列”和这些列中的数据没有必要捆绑在一起,所以这似乎是一个可疑的提议.

任何想法将不胜感激。

0 投票
0 回答
3491 浏览

scala - 如何解决pdf解析错误

斯卡拉代码:

这里,file 指的是 pdf 文件。path是pdf文件的地址,name是文件名。

在正常情况下,它执行得很好,但在某些 pdf 文件中,它会在第 5 行抛出错误:

我认为这个 pdf 文件的格式或内容有问题。当我使用另存为这个pdf文件制作另一个pdf文件并使用新创建的pdf文件时,它工作正常。

那么我该如何解决这个问题,以便无论我使用正确的文件还是错误的文件,我的代码都应该可以正常工作。

编辑

我在 com/sun/pdfview/PDFFile.java 描述中找到了以下内容

.

0 投票
1 回答
1976 浏览

c# - 使用 iText/iTextSharp 从 PDF 文件中提取字体高度和旋转

我创建了一些代码来使用 iTextSharp 从 PDF 文件中提取文本和字体高度,但不处理文本旋转。如何提取/计算这些信息?

这是代码:

0 投票
1 回答
1945 浏览

itextsharp - 在 iTextSharp 中选择 FontProviderImp

我正在使用 XMLWorker 来解析 html。我在样式中定义的字体一直存在一些问题。例如,像这样简单的事情:

没有工作。

我使用它作为我的 css 应用程序:

为了检查是否是 html 的编码问题或任何其他问题......,我自己实现了 IFontProvider:

然后,这个:

太好了!!!,效果很好!!!,如果我将这个传递给构造函数:

也有效。

因此,很明显字体提供程序的默认实现不起作用。我将其定义为:

,而且都没有工作。

我的问题是:

  1. 这有什么可能的解释?
  2. 区别XMLWorkerFontProviderFontFactoryImp实现
0 投票
2 回答
2630 浏览

java - 使用 PDFBox 的 PDF 中文本的字体信息

我是 Apache PDFBox 库的新手。

我想将字体信息映射到 PDF 段落

我已经通过 Questios如何使用 pdfbox 提取文本内容的字体样式?

但它没有提供关于哪个段落以哪种字体书写的信息。

例如,如果我的页面包含文本:

第 1 段:宋体

para2:新罗马时代

然后我应该能够得到 para1 是用 Arial 写的而 para2 是用 Times New Roman 写的信息。

上述问题中提出的解决方案给出了 PDF 页面仅包含的信息

arial 和 时代 新 罗马 .

0 投票
1 回答
2027 浏览

pdf - 用ghostscript检查PDF是否有透明对象

PDF 可以在几个部分中定义透明度(参见例如此处):

作为图形样式属性:

  • 填充不透明度 ( /ca) 或描边不透明度 ( /CA) 低于 1.0 的值
  • 软掩码的定义 ( \SMask)

或使用透明度页面组 ( /S /Transparency) 的定义。

以下grep表达式是对此的快速(且肮脏)检查:

是否可以检查是否有透明物体gs