问题标签 [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1331 浏览

java - 如何使用 Java 使用 PDFExtStream 从 PDF 中提取文本

未使用pdftextstream-2.6.3.jarSample.pdf文件中提取文本

0 投票
1 回答
1424 浏览

object - 如何使用 pdfbox 获取 pdf 的最大字体大小

  1. 我使用 pdfbox 从 pdf 中提取一些信息,但是如何提取每个对象的信息?如果其中之一包含流,我如何解码流以显示?

  2. 我可以从 pdf 框中获得最大字体大小吗?我想如果我可以得到每个对象的字体大小并对它们进行排序,那么我会得到具有最大字体大小的对象?

0 投票
1 回答
6252 浏览

python - Scrapy在pdf文件中抓取数据

我想知道如何使用scrapy抓取pdf文件中的数据。我应该使用哪个模块,哪个是最好和有效的方法?你能给我一些关于这个的示例教程吗

谢谢!!

0 投票
1 回答
11859 浏览

java - 如何提取pdf文件中表格的内容?

我想像这样在pdf中提取表格的内容:

在此处输入图像描述

我使用iText java PDF libray编写了这个 java 程序,它可以逐行读取 PDF 文件的内容,但我不知道如何获取表的内容

这就是我得到的:

在此处输入图像描述

但这不是我想要的,我想逐行逐列提取表格的内容,例如将每一行保存在java数组中

第一个数组将包含:“N°”、“DATE OBSERVATIONS”、“TEXTE”

第二个数组将包含:“029/14”、“Le 1er sept 2014 remplace AVURNAV...”、“SETE A compter du lundi 7 juillet 2014 débuteront les trav...”

第三个数组将包含:“037/14”、“Le 15 octobre 2014 remplace AVURNAV ...”、“SETE Du 15 septembre 2014 au 15 juillet 2015, travaux ....”

等等

谢谢

0 投票
0 回答
360 浏览

c# - iTextSharp 回归??????从 PDF 中提取文本时

我正在使用 ITextSharp 和以下命令从 pdf 中提取文本,它运行良好。但是今天我收到了一个不同的 pdf,这导致提取了很多 ? ? ? ?.

有人知道为什么会这样吗?无论如何至少检查pdf是否无法提取?

在此处输入图像描述

在此处输入图像描述

0 投票
0 回答
375 浏览

python - PDFMiner 错误地堆叠列表数据?

我正在尝试使用 PDFMiner 以一致的方式从 PDF 中提取信息,以便进行进一步分析,但我无法弄清楚如何正确提取表格数据。PDF Miner 似乎在行之前提取列。有没有人解决过这个问题或知道先提取行的方法?我尝试将其提取为 html,但遇到了同样的问题。任何帮助是极大的赞赏。

图片来自实际pdf:

图片来自实际 PDF

提取版本的图像

在此处输入图像描述

我用于提取的代码如下:

0 投票
1 回答
10322 浏览

pdf - 使用 CID 字体从 PDF 中提取文本

我正在编写一个网络应用程序,它在 PDF 的每一页顶部提取一行。PDF 来自产品的不同版本,可以通过许多 PDF 打印机,也有不同的版本和不同的设置。

到目前为止,使用 PDFSharp 和 iTextSharp 我已经设法让它适用于所有版本的 PDF。我的问题是使用具有 CID 字体 (Identity-H) 的文档。

我已经编写了一个部分解析器来查找字体表引用和文本块,但是将它们转换为可读文本让我很吃惊。

有没有人有: - 一个处理 CID 字体的解析器(像这个https://stackoverflow.com/a/1732265/5169050 );或 - 一些示例代码,用于如何解析页面资源字典以查找页面字体并获取其 ToUnicode 流以帮助完成此示例(https://stackoverflow.com/a/4048328/5169050

我们必须使用 iTextSharp 4.1 来保留免费使用许可。

这是我的部分解析器。

0 投票
3 回答
2775 浏览

itextsharp - iTextSharp 将包装的单元格内容提取到新行中 - 您现在如何识别给定的包装数据属于哪一列?

我正在使用 iTextSharp 从 pdf 中提取数据。我偶然发现了以下问题,如下图所示:

我创建了一个示例 excel 文件来说明。这是它的样子: 在此处输入图像描述

我使用许多可用的免费在线转换器之一将其转换为 pdf,它生成的 pdf 看起来像(当我生成 pdf 时,我没有将样式应用于 excel): 在此处输入图像描述

现在,iTextSharp用于从 pdf 中提取数据,将以下字符串作为提取的数据返回给我:

在此处输入图像描述

如您所见,包裹的单元格数据生成新行,其中每个包裹的数据由一个空格分隔。

问题:现在如何识别给定的包装数据属于哪一列?如果只iTextSharp保留与列一样多的空格...

在我的示例中 - 我如何确定111属于哪一列?


更新1:

每当一个字段有多个单词(即,包含空格)时,就会出现类似的问题。例如,考虑上面示例的第一行:

说它看起来像

iText 将再次为这个生成提取:

这里有同样的问题,必须确定每列的边界。


更新 2: 我正在使用的真实 pdf 文件的示例: 在此处输入图像描述 这就是 pdf 数据的样子。

0 投票
1 回答
683 浏览

vb.net - 从矩形中提取文本时的 ItextSharp anagram 输出

我正在尝试使用 ItextSharp 从矩形中提取文本,除了某些特定区域外,它几乎适用于文档中的所有部分。这些区域是简单的粗体大写标题和简单的内容,其字体比文档的其余部分略小(均为大写)。在这些区域中,我得到了所选文本的字谜,而不是正确的单词。

例如单词“RELEASE”被骑乘为“ERLEASE”,“VOYAGE”变成“EGAYVO”,句子“FURTHER CHARGES”变成“FHTRU ER CHAGR E S”

奇怪的是,如果我尝试使用 a 翻到整页SimpleTextExtractionStrategy,我会获得正确的文本。

pdf 的字体是经典的 Arial,我用于提取的策略取自 StackOverflow(rect 它由 args 传递):

我尝试了其他文件,效果很好,我无法用不同的文件重现这个问题。

我担心我的代码,我也尝试了这个策略:http ://www.schiffhauer.com/read-text-in-a-pdf-in-c-with-itextsharp/ 但结果是一样的。

我在阅读过程中遗漏了一些东西,或者这是与我的 pdf 相关的问题?

更新:如果我选择错误单词的单个字母,则输出为空字符串,如果我一起选择更多字母也会发生这种情况,只有当我选择整个单词时才会获得(字谜)输出。这真的很奇怪,例如我注意到如果我有“CARGO RELEASE”这个词,并且我只用一个矩形选择“GO”或任何其他子字符串,我什么也得不到,但是如果我选择“CARGO”,我会得到“GRACO ERLESAE”和我没有选择第二个词,只选择了第一个。

0 投票
1 回答
2180 浏览

itextsharp - iTextSharp 提取每个字符并获取矩形

我想逐个字符地解析整个 PDF 字符,并能够在该 PDF 文档上获取该字符的 ASCII 值、字体和矩形,以后可以将其保存为位图。我尝试使用 PdfTextExtractor.GetTextFromPage 但这会将 PDF 中的整个文本作为字符串提供。