问题标签 [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2674 浏览

java - 使用 Itext 从 pdf 检索图像时出错

PDF我有一个要从中检索图像的现有对象

笔记:

在文档中,这是RESULT变量

我不明白为什么需要这张图片?我只想从我的PDF文件中提取图片

所以现在当我使用 MyImageRenderListener listener = new MyImageRenderListener(RESULT);

我收到错误消息:

results\part4\chapter15\Img16.jpg(系统找不到指定的路径)

这是我拥有的代码。

0 投票
1 回答
266 浏览

pdf - 如何将 PDF 内容代码转换为“(<0034>) Tj”之类的类型?

PDF 内容以多种方式保存,“(abc) Tj”、“(<0035><0035>) Tj”或“\u065”。

我想知道是否有办法将 PDF 代码转换为一种类型,无论是直接文本“(abc) Tj”,还是十六进制“(<0035><0035>) Tj”,或者八进制“\u065”。

我认为如果将 PDF 转换并编码为一种类型,将更容易分析内容。

是否可以使用 Ghostscript 或其他东西来做到这一点?谢谢

0 投票
0 回答
990 浏览

java - Itext - 错误地检索以英寸为单位的图像宽度

我正在使用以下功能

当我在 Photoshop 中检查图像尺寸时,我完美地得到了以像素为单位的高度和宽度,但没有正确地得到以英寸为单位的宽度和高度

我需要它来计算图像的 DPI。

例如:

图片原始值: 宽度 - 450 像素和高度 - 362 像素

宽度 - 6.25 英寸和高度 - 5.028 英寸(值来自 Photoshop)

我从 itext 收到的信息:

宽度 - 450 像素和高度 - 362 像素(这是完美的)

宽度 -3.60 英寸和高度 - 2.90 英寸(这是问题所在)

0 投票
1 回答
1686 浏览

java - 获取图像的极右、左、上、下位置 - Itext

我正在为 pdf 设置边距并检查页面内容是否超出边距。

如果页面的内容只是文本,我很容易做到这一点。

这就是我正在做的事情:

我正在使用TextMarginFinder. 我将根据书本大小设置pdf的left margin值。并检查finder.getLlx();sincefinder.getLlx();将使我获得该页面中文本的最左侧位置。

但是,如果页面包含图像,这将不起作用。尽管图像超出了边距,但我没有收到上述代码的错误,因为该finder.getLlx();函数似乎仅适用于文本。

两个问题:

1)在循环浏览pdf中的页面时,如果该页面中有图像,我如何检查该特定页面是否包含图像?

2)如果它包含一个图像,我怎样才能获得它的极端位置?

mkl建议后更新

0 投票
3 回答
1682 浏览

delphi - Delphi 5:pdf中的总页数

我正在维护一个使用 Delphi 5 构建的旧应用程序。我需要确定给定 pdf 文件中的总页数。

我想我也可以为纯 C 翻译任何解决方案。

我目前的解决方案是分叉一个 pdftk 进程,并解析它的输出。但这很慢,所以我想知道是否可以为delphi(5 ...)找到一个好的开源pdf解析器库......而且它似乎不存在。

所以我尝试实现诸如查看文件的原始内容以查找“/Type /Page”或“/Count”或“Linearized ... /N”的出现。但是这些方法——也不是它们的组合——在每种情况下都不起作用。

所以我想知道是否可以从 Delphi 5 中找到可以使用的开源 DLL。但我也找不到。我偶然发现了 iTextSharp,但它适用于 .NET,我不明白如何在普通的 delphi5 程序中使用它......

所以我最后的想法是:有什么改变我可以找到-say-pdftk的源代码并将其编译为DLL吗?谁能指出我正确的方向?

我有什么解决方案吗?

我提前感谢您的帮助!

0 投票
1 回答
1116 浏览

python - Python:用图像解析pdf

我想解析一些包含文本并且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以进行进一步处理,并将图像保存为 jpeg/png 或任何其他图像格式。最好的模块应该是什么?

0 投票
1 回答
2509 浏览

itextsharp - PdfReaderContentParser.ProcessContent 为明文返回空白

我想为包含二进制和明文数据的文本解析pdf 。当我尝试使用 PdfReaderContentParser 执行此操作时,GetResultantText 方法为二进制内容返回正确的文本,但为明文内容返回空格。这是我使用的代码:

知道如何获取所有内容吗?

0 投票
0 回答
200 浏览

php - PHP PDF解析器单词中的空格

我正在使用这个PDFParser来解析 PDF 文件。突然,其中一个文件被解析为单词中的空格,例如应该有

周一

, 但它被解析为

周一

或者

作为

当我从 pdf 阅读器中选择文本并复制到其他地方时,没有这些奇怪的空格。库中是否存在错误或 pdf 中有一些隐藏字符。如何修复?

编辑:有一个每周菜单的链接。这个 PDF 文件是捷克语,所以有例如 word

庞德利

应该是:

蓬杰利

或者

库日埃西

应该:

库热奇

我可以看到所有这些空格都在带有重音符号的字符周围,但并非总是如此。

我警告你,它可能会在本周之后发生变化,新菜单可能没有这些空格。

0 投票
0 回答
1482 浏览

php - 如何从 PHP 解析 PDF 文件的行?

我想从 PHP 解析 PDF 文件。为此,我构建了此代码(我使用了 PDF Parser 库)。

代码:

使用此代码,我可以从 PDF 文件中读取文本,但无法解析信息,因为例如,如果在文件中我有这一行:

个人信息 Marco Mengoni

意大利

德拉吉斯蒂齐亚大街

当我调用我的页面时 echo $text; 在页面上打印:

个人信息 Marco Mengoni Italia Via Della Giustizia。

现在有解析单行的模式吗????

0 投票
0 回答
1326 浏览

python - 使用pypdf2解析pdf

在使用 pypdf2 解析 pdf 文件时,它会在换行符中读取诸如 mm-dd-yy 之类的 hifenated 单词:

毫米

-

dd

-

年年

这是我的代码:

我怎样才能克服这个问题并将它们打印在同一行?