问题标签 [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
350 浏览

java - 用itext解析pdf?

我无法使用 itext 解析器获得一致的结果。这是代码

我正在使用报告管理器创建 pdf。两种文件的模板不同,但我要提取的字段的位置是相同的。
我正在使用位置策略。矩形指向我要解析的位置。当打印在纸上时,有问题的字段位于相同的位置,所以我的猜测是应该解析相同,但事实并非如此。第一个文档给了我预期的结果,但是当我用与我的矩形相同的坐标解析第二个文档时,我正在解析比预期位置高两行的东西。希望这是一个更好的解释。
我在报表管理器中设置了模板,以便目标字段位于相同的位置,两个 pdf 的字体大小、间距、相同的文档标题在打印出来时很明显,但是在解析时我得到两行偏移。

0 投票
1 回答
6700 浏览

c# - 将 GhostScript 用作 Saas 的商业用途是否需要许可证?

我正在做一个项目。用户可以在其中上传 PDF 并将其转换为图像,因此我使用了 GhostScript dll (gsdll32.dll)。现在在我的应用程序中,我想从用户那里按月订阅收费,这样我就可以为他们提供更多功能。

但我既不了解许可条款,也不了解 ghostscript 泪水和条件。那么我是否需要购买任何许可证或者是否有任何其他免费的 C# 库,可用于 pdf 处理,我可以在商业应用程序中使用而无需获得任何许可证?

好吧,我更喜欢任何免费的 c# 库(高级 Saas 或直接应用程序销售)。

谢谢如果有人对上述有实时经验,请帮助我。

0 投票
1 回答
4266 浏览

php - 找不到类“Smalot\PdfParser\Parser”

我正在尝试使用Pdfparser库来解析 PDF 文件,但在类包含方面存在一些问题。

我阅读了文档,但它不起作用。

我使用 Windows 和 XAMPP。

  • 我创建了一个目录/xampp/htdocs/pdf_import
  • 我安装了 Composer 并生成了/vendor/autoload.phpinpdfparser-master/src
  • 我使用文档中的代码示例

例子:

当我运行 php 脚本时,我收到此错误:

致命错误:在第 8 行的 C:\xampp\htdocs\pdf_import\pdfparser-master\src\import.php 中找不到类 'Smalot\PdfParser\Parser'

0 投票
2 回答
14478 浏览

python - 从pdf中提取表格

我正在尝试从此PDF中的表中获取数据。我已经尝试了 pdfminer 和 pypdf ,但我无法真正从表格中获取数据。

这是其中一张表的样子: 在此处输入图像描述

如您所见,某些列标有“x”。我正在尝试将此表转换为对象列表。

这是到目前为止的代码,我现在正在使用 pdfminer。

这会产生一个文本文件并获取所有文本,但是 x 没有保留间距。输出如下所示: 在此处输入图像描述

x 在文本文档中只是单行距

现在,我只是在生成文本输出,但我的目标是使用表格中的数据生成一个 html 文档。我一直在寻找 OCR 示例,其中大多数看起来令人困惑或不完整。我愿意使用 C# 或任何其他可能产生我正在寻找的结果的语言。

编辑:将有多个像这样的 pdf,我需要从中获取表数据。所有 pdf 的标题都是相同的(据我所知)。

0 投票
3 回答
110748 浏览

python - 从 PDF python 中提取/识别表格

是否有任何支持表格识别和提取的开源库?

我的意思是:

  1. 识别表结构存在
  2. 根据内容对表格进行分类
  3. 以有用的输出格式从表中提取数据,例如 JSON / CSV 等。

我查看了有关此主题的类似问题,发现以下内容:

  • PDFMiner解决了问题 3,但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置(如果我错了,请纠正我)
  • pdf-table-extract试图解决问题 1 但根据待办事项列表,目前无法识别由空格分隔的表。这是一个问题,因为我的 PDF 中的所有表格都由空格分隔!

目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此,任何替代方法都将受到欢迎!

0 投票
1 回答
1632 浏览

perl - 如何使用 CAM::PDF 提取所有页面?

使用上面的代码,我可以将 pdf 数据提取到文本文件中,但我只能得到一页。我想在我的 pdf 中获取每一页。

我知道它在包含的行中

我不确定如何更改它。我什至尝试过(1..200),它只给了我第一页。有人熟悉使用 CAM::PDF 吗?

0 投票
2 回答
4394 浏览

pdfbox - Apache PDFBox 删除字符之间的空格

我们正在使用 PDFBox 从 PDF 中提取文本。

某些 PDF 的文本无法正确提取。下图将 PDF 中的一部分显示为图像:

在此处输入图像描述

提取文本后,我们得到以下文本:
3, 8 5 EU R 1 Netto 38,50 EUR 4,00
(在 ',' 和 '8' 之间添加空格)

这是我们的代码:

我们尝试使用 PDFTextStripper 属性“AverageCharTolerance”和“SpacingTolerance”,但没有产生积极影响。

替代库“iText”正确提取文本,字符之间没有空格。但由于许可证问题,我们不能使用它。

有任何想法吗?谢谢你。

编辑:我们使用的是 1.8.9 版。我们还尝试了快照版本 2.0.0,但没有任何效果。

0 投票
3 回答
4118 浏览

java - 如何从 PDF 中提取书签?

当我在 PDF 查看器中打开 PDF 时,我会在实际文档的左侧看到一系列书签。那里显示的信息似乎并不构成文档实际内容的一部分:它没有打印出来,它没有出现在特定页面上。

如何使用 Java 提取这些书签?

0 投票
1 回答
134 浏览

php - 在线PDF处理和操作

我想在线显示一个 pdf 文件,并在点击 pdf 中的单词时提供翻译。Pdf 来自用户,我没有任何标记。如果有翻译的 pdf 可用,我想在单击原始 pdf 中的句子/单词时显示翻译 pdf 的片段。如果翻译不在 pdf 文件中,我会将其显示为文本覆盖。我有哪些可能性?
我可以想象以下解决方案:

  1. 对原始pdf没有修改,点击句子会出现覆盖。Adobe Pdf Reader 可能无法使用,是否有可用的服务器端阅读器,我可以在其中执行此类操作(处理点击、获取点击文本、sdd 覆盖)?
  2. 将 pdf 转换为 html - 我可以在服务器端使用哪个转换器?(PHP 优先)
  3. 为浏览器创建自定义 pdf 阅读器 - 太复杂了
  4. ??

有什么建议么?

0 投票
1 回答
2685 浏览

poppler - 使用 pdftohtml poppler 实用程序将多页 PDF 转换为单个 html 文件

我正在使用 poppler 实用程序将 PDF 文档转换为 HTML。但它为每个页面创建单独的 html 文件,但在将 pdf 转换为 html 后我想要一个 HTML 文件。

我使用了以下语法:

但它创建 abc-1.html、abc-2.html、....等

我也尝试过 pdftohtml -c abc.pdf abc.html但没有得到预期的输出。

谁能告诉如何在单个文件而不是多个 html 文件中获取 html 输出?