问题标签 [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
object - 如何使用 pdfbox 获取 pdf 的最大字体大小
我使用 pdfbox 从 pdf 中提取一些信息,但是如何提取每个对象的信息?如果其中之一包含流,我如何解码流以显示?
我可以从 pdf 框中获得最大字体大小吗?我想如果我可以得到每个对象的字体大小并对它们进行排序,那么我会得到具有最大字体大小的对象?
python - Scrapy在pdf文件中抓取数据
我想知道如何使用scrapy抓取pdf文件中的数据。我应该使用哪个模块,哪个是最好和有效的方法?你能给我一些关于这个的示例教程吗
谢谢!!
java - 如何提取pdf文件中表格的内容?
我想像这样在pdf中提取表格的内容:
我使用iText java PDF libray编写了这个 java 程序,它可以逐行读取 PDF 文件的内容,但我不知道如何获取表的内容
这就是我得到的:
但这不是我想要的,我想逐行逐列提取表格的内容,例如将每一行保存在java数组中
第一个数组将包含:“N°”、“DATE OBSERVATIONS”、“TEXTE”
第二个数组将包含:“029/14”、“Le 1er sept 2014 remplace AVURNAV...”、“SETE A compter du lundi 7 juillet 2014 débuteront les trav...”
第三个数组将包含:“037/14”、“Le 15 octobre 2014 remplace AVURNAV ...”、“SETE Du 15 septembre 2014 au 15 juillet 2015, travaux ....”
等等
谢谢
pdf - 使用 CID 字体从 PDF 中提取文本
我正在编写一个网络应用程序,它在 PDF 的每一页顶部提取一行。PDF 来自产品的不同版本,可以通过许多 PDF 打印机,也有不同的版本和不同的设置。
到目前为止,使用 PDFSharp 和 iTextSharp 我已经设法让它适用于所有版本的 PDF。我的问题是使用具有 CID 字体 (Identity-H) 的文档。
我已经编写了一个部分解析器来查找字体表引用和文本块,但是将它们转换为可读文本让我很吃惊。
有没有人有: - 一个处理 CID 字体的解析器(像这个https://stackoverflow.com/a/1732265/5169050 );或 - 一些示例代码,用于如何解析页面资源字典以查找页面字体并获取其 ToUnicode 流以帮助完成此示例(https://stackoverflow.com/a/4048328/5169050)
我们必须使用 iTextSharp 4.1 来保留免费使用许可。
这是我的部分解析器。
itextsharp - iTextSharp 将包装的单元格内容提取到新行中 - 您现在如何识别给定的包装数据属于哪一列?
我正在使用 iTextSharp 从 pdf 中提取数据。我偶然发现了以下问题,如下图所示:
我使用许多可用的免费在线转换器之一将其转换为 pdf,它生成的 pdf 看起来像(当我生成 pdf 时,我没有将样式应用于 excel):
现在,iTextSharp
用于从 pdf 中提取数据,将以下字符串作为提取的数据返回给我:
如您所见,包裹的单元格数据生成新行,其中每个包裹的数据由一个空格分隔。
问题:现在如何识别给定的包装数据属于哪一列?如果只iTextSharp
保留与列一样多的空格...
在我的示例中 - 我如何确定111属于哪一列?
更新1:
每当一个字段有多个单词(即,包含空格)时,就会出现类似的问题。例如,考虑上面示例的第一行:
说它看起来像
iText 将再次为这个生成提取:
这里有同样的问题,必须确定每列的边界。
vb.net - 从矩形中提取文本时的 ItextSharp anagram 输出
我正在尝试使用 ItextSharp 从矩形中提取文本,除了某些特定区域外,它几乎适用于文档中的所有部分。这些区域是简单的粗体大写标题和简单的内容,其字体比文档的其余部分略小(均为大写)。在这些区域中,我得到了所选文本的字谜,而不是正确的单词。
例如单词“RELEASE”被骑乘为“ERLEASE”,“VOYAGE”变成“EGAYVO”,句子“FURTHER CHARGES”变成“FHTRU ER CHAGR E S”
奇怪的是,如果我尝试使用 a 翻到整页SimpleTextExtractionStrategy
,我会获得正确的文本。
pdf 的字体是经典的 Arial,我用于提取的策略取自 StackOverflow(rect 它由 args 传递):
我尝试了其他文件,效果很好,我无法用不同的文件重现这个问题。
我担心我的代码,我也尝试了这个策略:http ://www.schiffhauer.com/read-text-in-a-pdf-in-c-with-itextsharp/ 但结果是一样的。
我在阅读过程中遗漏了一些东西,或者这是与我的 pdf 相关的问题?
更新:如果我选择错误单词的单个字母,则输出为空字符串,如果我一起选择更多字母也会发生这种情况,只有当我选择整个单词时才会获得(字谜)输出。这真的很奇怪,例如我注意到如果我有“CARGO RELEASE”这个词,并且我只用一个矩形选择“GO”或任何其他子字符串,我什么也得不到,但是如果我选择“CARGO”,我会得到“GRACO ERLESAE”和我没有选择第二个词,只选择了第一个。
itextsharp - iTextSharp 提取每个字符并获取矩形
我想逐个字符地解析整个 PDF 字符,并能够在该 PDF 文档上获取该字符的 ASCII 值、字体和矩形,以后可以将其保存为位图。我尝试使用 PdfTextExtractor.GetTextFromPage 但这会将 PDF 中的整个文本作为字符串提供。