“pdf-parsing”的相关标签问题

0 投票

0 回答

350 浏览

java - 用itext解析pdf？

我无法使用 itext 解析器获得一致的结果。这是代码

我正在使用报告管理器创建 pdf。两种文件的模板不同，但我要提取的字段的位置是相同的。
我正在使用位置策略。矩形指向我要解析的位置。当打印在纸上时，有问题的字段位于相同的位置，所以我的猜测是应该解析相同，但事实并非如此。第一个文档给了我预期的结果，但是当我用与我的矩形相同的坐标解析第二个文档时，我正在解析比预期位置高两行的东西。希望这是一个更好的解释。
我在报表管理器中设置了模板，以便目标字段位于相同的位置，两个 pdf 的字体大小、间距、相同的文档标题在打印出来时很明显，但是在解析时我得到两行偏移。

2014-10-24T13:30:36.550

0 投票

1 回答

6700 浏览

c# - 将 GhostScript 用作 Saas 的商业用途是否需要许可证？

我正在做一个项目。用户可以在其中上传 PDF 并将其转换为图像，因此我使用了 GhostScript dll (gsdll32.dll)。现在在我的应用程序中，我想从用户那里按月订阅收费，这样我就可以为他们提供更多功能。

但我既不了解许可条款，也不了解 ghostscript 泪水和条件。那么我是否需要购买任何许可证或者是否有任何其他免费的 C# 库，可用于 pdf 处理，我可以在商业应用程序中使用而无需获得任何许可证？

好吧，我更喜欢任何免费的 c# 库（高级 Saas 或直接应用程序销售）。

谢谢如果有人对上述有实时经验，请帮助我。

c#pdf open-source ghostscript pdf-parsing

2014-12-09T06:51:16.523

0 投票

1 回答

4266 浏览

php - 找不到类“Smalot\PdfParser\Parser”

我正在尝试使用Pdfparser库来解析 PDF 文件，但在类包含方面存在一些问题。

我阅读了文档，但它不起作用。

我使用 Windows 和 XAMPP。

我创建了一个目录/xampp/htdocs/pdf_import
我安装了 Composer 并生成了/vendor/autoload.phpinpdfparser-master/src
我使用文档中的代码示例

例子：

当我运行 php 脚本时，我收到此错误：

致命错误：在第 8 行的 C:\xampp\htdocs\pdf_import\pdfparser-master\src\import.php 中找不到类 'Smalot\PdfParser\Parser'

php pdf-parsing

2014-12-24T10:15:16.660

0 投票

2 回答

14478 浏览

python - 从pdf中提取表格

我正在尝试从此PDF中的表中获取数据。我已经尝试了 pdfminer 和 pypdf ，但我无法真正从表格中获取数据。

这是其中一张表的样子：在此处输入图像描述

如您所见，某些列标有“x”。我正在尝试将此表转换为对象列表。

这是到目前为止的代码，我现在正在使用 pdfminer。

这会产生一个文本文件并获取所有文本，但是 x 没有保留间距。输出如下所示：在此处输入图像描述

x 在文本文档中只是单行距

现在，我只是在生成文本输出，但我的目标是使用表格中的数据生成一个 html 文档。我一直在寻找 OCR 示例，其中大多数看起来令人困惑或不完整。我愿意使用 C# 或任何其他可能产生我正在寻找的结果的语言。

编辑：将有多个像这样的 pdf，我需要从中获取表数据。所有 pdf 的标题都是相同的（据我所知）。

python python-2.7 ocr pdfminer pdf-parsing

2015-01-13T17:22:39.307

0 投票

3 回答

110748 浏览

python - 从 PDF python 中提取/识别表格

是否有任何支持表格识别和提取的开源库？

我的意思是：

识别表结构存在
根据内容对表格进行分类
以有用的输出格式从表中提取数据，例如 JSON / CSV 等。

我查看了有关此主题的类似问题，发现以下内容：

PDFMiner解决了问题 3，但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置（如果我错了，请纠正我）
pdf-table-extract试图解决问题 1 但根据待办事项列表，目前无法识别由空格分隔的表。这是一个问题，因为我的 PDF 中的所有表格都由空格分隔！

目前，我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此，任何替代方法都将受到欢迎！

python pdf scrape pdf-parsing pdf-scraping

2015-02-16T00:04:14.743

0 投票

1 回答

1632 浏览

perl - 如何使用 CAM::PDF 提取所有页面？

使用上面的代码，我可以将 pdf 数据提取到文本文件中，但我只能得到一页。我想在我的 pdf 中获取每一页。

我知道它在包含的行中

我不确定如何更改它。我什至尝试过（1..200），它只给了我第一页。有人熟悉使用 CAM::PDF 吗？

perl pdftotext pdf-parsing

2015-02-18T22:59:08.333

0 投票

2 回答

4394 浏览

pdfbox - Apache PDFBox 删除字符之间的空格

我们正在使用 PDFBox 从 PDF 中提取文本。

某些 PDF 的文本无法正确提取。下图将 PDF 中的一部分显示为图像：

在此处输入图像描述

提取文本后，我们得到以下文本：
3, 8 5 EU R 1 Netto 38,50 EUR 4,00
（在 ',' 和 '8' 之间添加空格）

这是我们的代码：

我们尝试使用 PDFTextStripper 属性“AverageCharTolerance”和“SpacingTolerance”，但没有产生积极影响。

替代库“iText”正确提取文本，字符之间没有空格。但由于许可证问题，我们不能使用它。

有任何想法吗？谢谢你。

编辑：我们使用的是 1.8.9 版。我们还尝试了快照版本 2.0.0，但没有任何效果。

pdfbox text-extraction pdf-parsing

2015-04-10T06:01:24.553

0 投票

3 回答

4118 浏览

java - 如何从 PDF 中提取书签？

当我在 PDF 查看器中打开 PDF 时，我会在实际文档的左侧看到一系列书签。那里显示的信息似乎并不构成文档实际内容的一部分：它没有打印出来，它没有出现在特定页面上。

如何使用 Java 提取这些书签？

java pdf pdf-parsing

2015-04-15T12:27:49.187

0 投票

1 回答

134 浏览

php - 在线PDF处理和操作

我想在线显示一个 pdf 文件，并在点击 pdf 中的单词时提供翻译。Pdf 来自用户，我没有任何标记。如果有翻译的 pdf 可用，我想在单击原始 pdf 中的句子/单词时显示翻译 pdf 的片段。如果翻译不在 pdf 文件中，我会将其显示为文本覆盖。我有哪些可能性？
我可以想象以下解决方案：

对原始pdf没有修改，点击句子会出现覆盖。Adobe Pdf Reader 可能无法使用，是否有可用的服务器端阅读器，我可以在其中执行此类操作（处理点击、获取点击文本、sdd 覆盖）？
将 pdf 转换为 html - 我可以在服务器端使用哪个转换器？(PHP 优先)
为浏览器创建自定义 pdf 阅读器 - 太复杂了
??

有什么建议么？

php pdf pdf-generation pdfbox pdf-parsing

2015-04-20T10:11:47.793

0 投票

1 回答

2685 浏览

poppler - 使用 pdftohtml poppler 实用程序将多页 PDF 转换为单个 html 文件

我正在使用 poppler 实用程序将 PDF 文档转换为 HTML。但它为每个页面创建单独的 html 文件，但在将 pdf 转换为 html 后我想要一个 HTML 文件。

我使用了以下语法：

但它创建 abc-1.html、abc-2.html、....等

我也尝试过 pdftohtml -c abc.pdf abc.html但没有得到预期的输出。

谁能告诉如何在单个文件而不是多个 html 文件中获取 html 输出？

poppler pdf-parsing pdf-to-html

2015-04-20T10:22:35.383

问题标签 [pdf-parsing]

Reference