问题标签 [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Itext 从 pdf 检索图像时出错
PDF
我有一个要从中检索图像的现有对象
笔记:
在文档中,这是RESULT
变量
我不明白为什么需要这张图片?我只想从我的PDF
文件中提取图片
所以现在当我使用 MyImageRenderListener listener = new MyImageRenderListener(RESULT);
我收到错误消息:
results\part4\chapter15\Img16.jpg(系统找不到指定的路径)
这是我拥有的代码。
pdf - 如何将 PDF 内容代码转换为“(<0034>) Tj”之类的类型?
PDF 内容以多种方式保存,“(abc) Tj”、“(<0035><0035>) Tj”或“\u065”。
我想知道是否有办法将 PDF 代码转换为一种类型,无论是直接文本“(abc) Tj”,还是十六进制“(<0035><0035>) Tj”,或者八进制“\u065”。
我认为如果将 PDF 转换并编码为一种类型,将更容易分析内容。
是否可以使用 Ghostscript 或其他东西来做到这一点?谢谢
java - Itext - 错误地检索以英寸为单位的图像宽度
我正在使用以下功能
当我在 Photoshop 中检查图像尺寸时,我完美地得到了以像素为单位的高度和宽度,但没有正确地得到以英寸为单位的宽度和高度。
我需要它来计算图像的 DPI。
例如:
图片原始值: 宽度 - 450 像素和高度 - 362 像素
宽度 - 6.25 英寸和高度 - 5.028 英寸(值来自 Photoshop)
我从 itext 收到的信息:
宽度 - 450 像素和高度 - 362 像素(这是完美的)
宽度 -3.60 英寸和高度 - 2.90 英寸(这是问题所在)
java - 获取图像的极右、左、上、下位置 - Itext
我正在为 pdf 设置边距并检查页面内容是否超出边距。
如果页面的内容只是文本,我很容易做到这一点。
这就是我正在做的事情:
我正在使用TextMarginFinder
. 我将根据书本大小设置pdf的left margin
值。并检查finder.getLlx();
sincefinder.getLlx();
将使我获得该页面中文本的最左侧位置。
但是,如果页面包含图像,这将不起作用。尽管图像超出了边距,但我没有收到上述代码的错误,因为该finder.getLlx();
函数似乎仅适用于文本。
两个问题:
1)在循环浏览pdf中的页面时,如果该页面中有图像,我如何检查该特定页面是否包含图像?
2)如果它包含一个图像,我怎样才能获得它的极端位置?
mkl
建议后更新
delphi - Delphi 5:pdf中的总页数
我正在维护一个使用 Delphi 5 构建的旧应用程序。我需要确定给定 pdf 文件中的总页数。
我想我也可以为纯 C 翻译任何解决方案。
我目前的解决方案是分叉一个 pdftk 进程,并解析它的输出。但这很慢,所以我想知道是否可以为delphi(5 ...)找到一个好的开源pdf解析器库......而且它似乎不存在。
所以我尝试实现诸如查看文件的原始内容以查找“/Type /Page”或“/Count”或“Linearized ... /N”的出现。但是这些方法——也不是它们的组合——在每种情况下都不起作用。
所以我想知道是否可以从 Delphi 5 中找到可以使用的开源 DLL。但我也找不到。我偶然发现了 iTextSharp,但它适用于 .NET,我不明白如何在普通的 delphi5 程序中使用它......
所以我最后的想法是:有什么改变我可以找到-say-pdftk的源代码并将其编译为DLL吗?谁能指出我正确的方向?
我有什么解决方案吗?
我提前感谢您的帮助!
python - Python:用图像解析pdf
我想解析一些包含文本并且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以进行进一步处理,并将图像保存为 jpeg/png 或任何其他图像格式。最好的模块应该是什么?
itextsharp - PdfReaderContentParser.ProcessContent 为明文返回空白
我想为包含二进制和明文数据的文本解析pdf 。当我尝试使用 PdfReaderContentParser 执行此操作时,GetResultantText 方法为二进制内容返回正确的文本,但为明文内容返回空格。这是我使用的代码:
知道如何获取所有内容吗?
php - 如何从 PHP 解析 PDF 文件的行?
我想从 PHP 解析 PDF 文件。为此,我构建了此代码(我使用了 PDF Parser 库)。
代码:
使用此代码,我可以从 PDF 文件中读取文本,但无法解析信息,因为例如,如果在文件中我有这一行:
个人信息 Marco Mengoni
意大利
德拉吉斯蒂齐亚大街
当我调用我的页面时 echo $text; 在页面上打印:
个人信息 Marco Mengoni Italia Via Della Giustizia。
现在有解析单行的模式吗????
python - 使用pypdf2解析pdf
在使用 pypdf2 解析 pdf 文件时,它会在换行符中读取诸如 mm-dd-yy 之类的 hifenated 单词:
毫米
-
dd
-
年年
这是我的代码:
我怎样才能克服这个问题并将它们打印在同一行?