问题标签 [pdf-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

153 问题

0 投票

1 回答

2674 浏览

java - 使用 Itext 从 pdf 检索图像时出错

PDF我有一个要从中检索图像的现有对象

笔记：

在文档中，这是RESULT变量

我不明白为什么需要这张图片？我只想从我的PDF文件中提取图片

所以现在当我使用 MyImageRenderListener listener = new MyImageRenderListener(RESULT);

我收到错误消息：

results\part4\chapter15\Img16.jpg（系统找不到指定的路径）

这是我拥有的代码。

2015-08-12T10:22:52.497

0 投票

1 回答

266 浏览

pdf - 如何将 PDF 内容代码转换为“(<0034>) Tj”之类的类型？

PDF 内容以多种方式保存，“(abc) Tj”、“(<0035><0035>) Tj”或“\u065”。

我想知道是否有办法将 PDF 代码转换为一种类型，无论是直接文本“(abc) Tj”，还是十六进制“(<0035><0035>) Tj”，或者八进制“\u065”。

我认为如果将 PDF 转换并编码为一种类型，将更容易分析内容。

是否可以使用 Ghostscript 或其他东西来做到这一点？谢谢

pdf pdf-generation ghostscript pdf-conversion pdf-parsing

2015-08-22T00:45:18.870

0 投票

0 回答

990 浏览

java - Itext - 错误地检索以英寸为单位的图像宽度

我正在使用以下功能

当我在 Photoshop 中检查图像尺寸时，我完美地得到了以像素为单位的高度和宽度，但没有正确地得到以英寸为单位的宽度和高度。

我需要它来计算图像的 DPI。

例如：

图片原始值： 宽度 - 450 像素和高度 - 362 像素

宽度 - 6.25 英寸和高度 - 5.028 英寸（值来自 Photoshop）

我从 itext 收到的信息：

宽度 - 450 像素和高度 - 362 像素（这是完美的）

宽度 -3.60 英寸和高度 - 2.90 英寸（这是问题所在）

java pdf itext pdf-parsing

2015-08-24T12:01:58.627

0 投票

1 回答

1686 浏览

java - 获取图像的极右、左、上、下位置 - Itext

我正在为 pdf 设置边距并检查页面内容是否超出边距。

如果页面的内容只是文本，我很容易做到这一点。

这就是我正在做的事情：

我正在使用TextMarginFinder. 我将根据书本大小设置pdf的left margin值。并检查finder.getLlx();sincefinder.getLlx();将使我获得该页面中文本的最左侧位置。

但是，如果页面包含图像，这将不起作用。尽管图像超出了边距，但我没有收到上述代码的错误，因为该finder.getLlx();函数似乎仅适用于文本。

两个问题：

1）在循环浏览pdf中的页面时，如果该页面中有图像，我如何检查该特定页面是否包含图像？

2）如果它包含一个图像，我怎样才能获得它的极端位置？

mkl建议后更新

java pdf itext pdf-parsing pdfrenderer

2015-09-04T09:23:11.860

0 投票

3 回答

1682 浏览

delphi - Delphi 5：pdf中的总页数

我正在维护一个使用 Delphi 5 构建的旧应用程序。我需要确定给定 pdf 文件中的总页数。

我想我也可以为纯 C 翻译任何解决方案。

我目前的解决方案是分叉一个 pdftk 进程，并解析它的输出。但这很慢，所以我想知道是否可以为delphi（5 ...）找到一个好的开源pdf解析器库......而且它似乎不存在。

所以我尝试实现诸如查看文件的原始内容以查找“/Type /Page”或“/Count”或“Linearized ... /N”的出现。但是这些方法——也不是它们的组合——在每种情况下都不起作用。

所以我想知道是否可以从 Delphi 5 中找到可以使用的开源 DLL。但我也找不到。我偶然发现了 iTextSharp，但它适用于 .NET，我不明白如何在普通的 delphi5 程序中使用它......

所以我最后的想法是：有什么改变我可以找到-say-pdftk的源代码并将其编译为DLL吗？谁能指出我正确的方向？

我有什么解决方案吗？

我提前感谢您的帮助！

delphi pdf pdf-parsing

2015-09-14T15:53:37.360

0 投票

1 回答

1116 浏览

python - Python：用图像解析pdf

我想解析一些包含文本并且可能包含也可能不包含图像的 pdf 文件。我想将文本部分提取为字符串以进行进一步处理，并将图像保存为 jpeg/png 或任何其他图像格式。最好的模块应该是什么？

python pdf-parsing

2015-09-20T20:32:43.250

0 投票

1 回答

2509 浏览

itextsharp - PdfReaderContentParser.ProcessContent 为明文返回空白

我想为包含二进制和明文数据的文本解析pdf 。当我尝试使用 PdfReaderContentParser 执行此操作时，GetResultantText 方法为二进制内容返回正确的文本，但为明文内容返回空格。这是我使用的代码：

知道如何获取所有内容吗？

itextsharp pdf-parsing

2015-11-30T08:58:21.540

0 投票

0 回答

200 浏览

php - PHP PDF解析器单词中的空格

我正在使用这个PDFParser来解析 PDF 文件。突然，其中一个文件被解析为单词中的空格，例如应该有

周一

, 但它被解析为

周一

或者

鸡

作为

鸡

当我从 pdf 阅读器中选择文本并复制到其他地方时，没有这些奇怪的空格。库中是否存在错误或 pdf 中有一些隐藏字符。如何修复？

编辑：有一个每周菜单的链接。这个 PDF 文件是捷克语，所以有例如 word

庞德利

应该是：

蓬杰利

或者

库日埃西

应该：

库热奇

我可以看到所有这些空格都在带有重音符号的字符周围，但并非总是如此。

我警告你，它可能会在本周之后发生变化，新菜单可能没有这些空格。

php pdf pdf-parsing

2016-02-08T10:39:40.027

0 投票

0 回答

1482 浏览

php - 如何从 PHP 解析 PDF 文件的行？

我想从 PHP 解析 PDF 文件。为此，我构建了此代码（我使用了 PDF Parser 库）。

代码：

使用此代码，我可以从 PDF 文件中读取文本，但无法解析信息，因为例如，如果在文件中我有这一行：

个人信息 Marco Mengoni

意大利

德拉吉斯蒂齐亚大街

当我调用我的页面时 echo $text; 在页面上打印：

个人信息 Marco Mengoni Italia Via Della Giustizia。

现在有解析单行的模式吗？？？？

php pdf pdf-parsing

2016-02-11T05:15:31.460

0 投票

0 回答

1326 浏览

python - 使用pypdf2解析pdf

在使用 pypdf2 解析 pdf 文件时，它会在换行符中读取诸如 mm-dd-yy 之类的 hifenated 单词：

毫米

年年

这是我的代码：

我怎样才能克服这个问题并将它们打印在同一行？

python pdf pypdf pdf-parsing

2016-02-15T04:43:58.240

1 2 3 4 5 6 7 8 9 10

问题标签 [pdf-parsing]

Reference