“pdf-extraction”的相关标签问题

0 投票

1 回答

1331 浏览

java - 如何使用 Java 使用 PDFExtStream 从 PDF 中提取文本

未使用pdftextstream-2.6.3.jar从Sample.pdf文件中提取文本

2015-01-07T11:22:41.767

0 投票

1 回答

1424 浏览

object - 如何使用 pdfbox 获取 pdf 的最大字体大小

我使用 pdfbox 从 pdf 中提取一些信息，但是如何提取每个对象的信息？如果其中之一包含流，我如何解码流以显示？
我可以从 pdf 框中获得最大字体大小吗？我想如果我可以得到每个对象的字体大小并对它们进行排序，那么我会得到具有最大字体大小的对象？

object font-size pdfbox pdf-extraction

2015-03-23T01:35:53.907

0 投票

1 回答

6252 浏览

python - Scrapy在pdf文件中抓取数据

我想知道如何使用scrapy抓取pdf文件中的数据。我应该使用哪个模块，哪个是最好和有效的方法？你能给我一些关于这个的示例教程吗

谢谢！！

python python-2.7 pdf scrapy pdf-extraction

2015-07-08T09:10:17.577

0 投票

1 回答

11859 浏览

java - 如何提取pdf文件中表格的内容？

我想像这样在pdf中提取表格的内容：

在此处输入图像描述

我使用iText java PDF libray编写了这个 java 程序，它可以逐行读取 PDF 文件的内容，但我不知道如何获取表的内容

这就是我得到的：

在此处输入图像描述

但这不是我想要的，我想逐行逐列提取表格的内容，例如将每一行保存在java数组中

第一个数组将包含：“N°”、“DATE OBSERVATIONS”、“TEXTE”

第二个数组将包含：“029/14”、“Le 1er sept 2014 remplace AVURNAV...”、“SETE A compter du lundi 7 juillet 2014 débuteront les trav...”

第三个数组将包含：“037/14”、“Le 15 octobre 2014 remplace AVURNAV ...”、“SETE Du 15 septembre 2014 au 15 juillet 2015, travaux ....”

等等

谢谢

java pdf itext text-extraction pdf-extraction

2015-07-09T22:00:57.650

0 投票

0 回答

360 浏览

c# - iTextSharp 回归？？？？？？从 PDF 中提取文本时

我正在使用 ITextSharp 和以下命令从 pdf 中提取文本，它运行良好。但是今天我收到了一个不同的 pdf，这导致提取了很多 ? ? ? ?.

有人知道为什么会这样吗？无论如何至少检查pdf是否无法提取？

c#pdf itextsharp pdf-extraction

2015-08-26T20:59:52.127

0 投票

0 回答

375 浏览

python - PDFMiner 错误地堆叠列表数据？

我正在尝试使用 PDFMiner 以一致的方式从 PDF 中提取信息，以便进行进一步分析，但我无法弄清楚如何正确提取表格数据。PDF Miner 似乎在行之前提取列。有没有人解决过这个问题或知道先提取行的方法？我尝试将其提取为 html，但遇到了同样的问题。任何帮助是极大的赞赏。

图片来自实际pdf：

提取版本的图像

我用于提取的代码如下：

python pdf tabular pdfminer pdf-extraction

2015-10-17T17:56:52.113

0 投票

1 回答

10322 浏览

pdf - 使用 CID 字体从 PDF 中提取文本

我正在编写一个网络应用程序，它在 PDF 的每一页顶部提取一行。PDF 来自产品的不同版本，可以通过许多 PDF 打印机，也有不同的版本和不同的设置。

到目前为止，使用 PDFSharp 和 iTextSharp 我已经设法让它适用于所有版本的 PDF。我的问题是使用具有 CID 字体 (Identity-H) 的文档。

我已经编写了一个部分解析器来查找字体表引用和文本块，但是将它们转换为可读文本让我很吃惊。

有没有人有： - 一个处理 CID 字体的解析器（像这个https://stackoverflow.com/a/1732265/5169050 ）；或 - 一些示例代码，用于如何解析页面资源字典以查找页面字体并获取其 ToUnicode 流以帮助完成此示例（https://stackoverflow.com/a/4048328/5169050）

我们必须使用 iTextSharp 4.1 来保留免费使用许可。

这是我的部分解析器。

pdf fonts itextsharp pdf-extraction

2015-10-29T11:59:21.067

0 投票

3 回答

2775 浏览

itextsharp - iTextSharp 将包装的单元格内容提取到新行中 - 您现在如何识别给定的包装数据属于哪一列？

我正在使用 iTextSharp 从 pdf 中提取数据。我偶然发现了以下问题，如下图所示：

我创建了一个示例 excel 文件来说明。这是它的样子：

我使用许多可用的免费在线转换器之一将其转换为 pdf，它生成的 pdf 看起来像（当我生成 pdf 时，我没有将样式应用于 excel）：

现在，iTextSharp用于从 pdf 中提取数据，将以下字符串作为提取的数据返回给我：

如您所见，包裹的单元格数据生成新行，其中每个包裹的数据由一个空格分隔。

问题：现在如何识别给定的包装数据属于哪一列？如果只iTextSharp保留与列一样多的空格...

在我的示例中 - 我如何确定111属于哪一列？

更新1：

每当一个字段有多个单词（即，包含空格）时，就会出现类似的问题。例如，考虑上面示例的第一行：

说它看起来像

iText 将再次为这个生成提取：

这里有同样的问题，必须确定每列的边界。

更新 2： 我正在使用的真实 pdf 文件的示例：这就是 pdf 数据的样子。

itextsharp pdf-extraction

2015-12-30T14:24:37.440

0 投票

1 回答

683 浏览

vb.net - 从矩形中提取文本时的 ItextSharp anagram 输出

我正在尝试使用 ItextSharp 从矩形中提取文本，除了某些特定区域外，它几乎适用于文档中的所有部分。这些区域是简单的粗体大写标题和简单的内容，其字体比文档的其余部分略小（均为大写）。在这些区域中，我得到了所选文本的字谜，而不是正确的单词。

例如单词“RELEASE”被骑乘为“ERLEASE”，“VOYAGE”变成“EGAYVO”，句子“FURTHER CHARGES”变成“FHTRU ER CHAGR E S”

奇怪的是，如果我尝试使用 a 翻到整页SimpleTextExtractionStrategy，我会获得正确的文本。

pdf 的字体是经典的 Arial，我用于提取的策略取自 StackOverflow（rect 它由 args 传递）：

我尝试了其他文件，效果很好，我无法用不同的文件重现这个问题。

我担心我的代码，我也尝试了这个策略：http ://www.schiffhauer.com/read-text-in-a-pdf-in-c-with-itextsharp/ 但结果是一样的。

我在阅读过程中遗漏了一些东西，或者这是与我的 pdf 相关的问题？

更新：如果我选择错误单词的单个字母，则输出为空字符串，如果我一起选择更多字母也会发生这种情况，只有当我选择整个单词时才会获得（字谜）输出。这真的很奇怪，例如我注意到如果我有“CARGO RELEASE”这个词，并且我只用一个矩形选择“GO”或任何其他子字符串，我什么也得不到，但是如果我选择“CARGO”，我会得到“GRACO ERLESAE”和我没有选择第二个词，只选择了第一个。

vb.net pdf itextsharp itext pdf-extraction

2016-01-12T10:41:53.327

0 投票

1 回答

2180 浏览

itextsharp - iTextSharp 提取每个字符并获取矩形

我想逐个字符地解析整个 PDF 字符，并能够在该 PDF 文档上获取该字符的 ASCII 值、字体和矩形，以后可以将其保存为位图。我尝试使用 PdfTextExtractor.GetTextFromPage 但这会将 PDF 中的整个文本作为字符串提供。

itextsharp pdf-extraction

2016-01-21T07:17:15.083

问题标签 [pdf-extraction]

Reference