问题标签 [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 用itext解析pdf?
我无法使用 itext 解析器获得一致的结果。这是代码
我正在使用报告管理器创建 pdf。两种文件的模板不同,但我要提取的字段的位置是相同的。
我正在使用位置策略。矩形指向我要解析的位置。当打印在纸上时,有问题的字段位于相同的位置,所以我的猜测是应该解析相同,但事实并非如此。第一个文档给了我预期的结果,但是当我用与我的矩形相同的坐标解析第二个文档时,我正在解析比预期位置高两行的东西。希望这是一个更好的解释。
我在报表管理器中设置了模板,以便目标字段位于相同的位置,两个 pdf 的字体大小、间距、相同的文档标题在打印出来时很明显,但是在解析时我得到两行偏移。
c# - 将 GhostScript 用作 Saas 的商业用途是否需要许可证?
我正在做一个项目。用户可以在其中上传 PDF 并将其转换为图像,因此我使用了 GhostScript dll (gsdll32.dll)。现在在我的应用程序中,我想从用户那里按月订阅收费,这样我就可以为他们提供更多功能。
但我既不了解许可条款,也不了解 ghostscript 泪水和条件。那么我是否需要购买任何许可证或者是否有任何其他免费的 C# 库,可用于 pdf 处理,我可以在商业应用程序中使用而无需获得任何许可证?
好吧,我更喜欢任何免费的 c# 库(高级 Saas 或直接应用程序销售)。
谢谢如果有人对上述有实时经验,请帮助我。
php - 找不到类“Smalot\PdfParser\Parser”
我正在尝试使用Pdfparser库来解析 PDF 文件,但在类包含方面存在一些问题。
我阅读了文档,但它不起作用。
我使用 Windows 和 XAMPP。
- 我创建了一个目录
/xampp/htdocs/pdf_import
- 我安装了 Composer 并生成了
/vendor/autoload.php
inpdfparser-master/src
- 我使用文档中的代码示例
例子:
当我运行 php 脚本时,我收到此错误:
致命错误:在第 8 行的 C:\xampp\htdocs\pdf_import\pdfparser-master\src\import.php 中找不到类 'Smalot\PdfParser\Parser'
python - 从pdf中提取表格
我正在尝试从此PDF中的表中获取数据。我已经尝试了 pdfminer 和 pypdf ,但我无法真正从表格中获取数据。
这是其中一张表的样子:
如您所见,某些列标有“x”。我正在尝试将此表转换为对象列表。
这是到目前为止的代码,我现在正在使用 pdfminer。
这会产生一个文本文件并获取所有文本,但是 x 没有保留间距。输出如下所示:
x 在文本文档中只是单行距
现在,我只是在生成文本输出,但我的目标是使用表格中的数据生成一个 html 文档。我一直在寻找 OCR 示例,其中大多数看起来令人困惑或不完整。我愿意使用 C# 或任何其他可能产生我正在寻找的结果的语言。
编辑:将有多个像这样的 pdf,我需要从中获取表数据。所有 pdf 的标题都是相同的(据我所知)。
python - 从 PDF python 中提取/识别表格
是否有任何支持表格识别和提取的开源库?
我的意思是:
- 识别表结构存在
- 根据内容对表格进行分类
- 以有用的输出格式从表中提取数据,例如 JSON / CSV 等。
我查看了有关此主题的类似问题,发现以下内容:
- PDFMiner解决了问题 3,但似乎用户需要向 PDFMiner 指定每个表存在表结构的位置(如果我错了,请纠正我)
- pdf-table-extract试图解决问题 1 但根据待办事项列表,目前无法识别由空格分隔的表。这是一个问题,因为我的 PDF 中的所有表格都由空格分隔!
目前,我认为我必须花费大量时间开发机器学习解决方案来识别 PDF 中的表结构。因此,任何替代方法都将受到欢迎!
perl - 如何使用 CAM::PDF 提取所有页面?
使用上面的代码,我可以将 pdf 数据提取到文本文件中,但我只能得到一页。我想在我的 pdf 中获取每一页。
我知道它在包含的行中
我不确定如何更改它。我什至尝试过(1..200),它只给了我第一页。有人熟悉使用 CAM::PDF 吗?
pdfbox - Apache PDFBox 删除字符之间的空格
我们正在使用 PDFBox 从 PDF 中提取文本。
某些 PDF 的文本无法正确提取。下图将 PDF 中的一部分显示为图像:
提取文本后,我们得到以下文本:
3, 8 5 EU R 1 Netto 38,50 EUR 4,00
(在 ',' 和 '8' 之间添加空格)
这是我们的代码:
我们尝试使用 PDFTextStripper 属性“AverageCharTolerance”和“SpacingTolerance”,但没有产生积极影响。
替代库“iText”正确提取文本,字符之间没有空格。但由于许可证问题,我们不能使用它。
有任何想法吗?谢谢你。
编辑:我们使用的是 1.8.9 版。我们还尝试了快照版本 2.0.0,但没有任何效果。
java - 如何从 PDF 中提取书签?
当我在 PDF 查看器中打开 PDF 时,我会在实际文档的左侧看到一系列书签。那里显示的信息似乎并不构成文档实际内容的一部分:它没有打印出来,它没有出现在特定页面上。
如何使用 Java 提取这些书签?
php - 在线PDF处理和操作
我想在线显示一个 pdf 文件,并在点击 pdf 中的单词时提供翻译。Pdf 来自用户,我没有任何标记。如果有翻译的 pdf 可用,我想在单击原始 pdf 中的句子/单词时显示翻译 pdf 的片段。如果翻译不在 pdf 文件中,我会将其显示为文本覆盖。我有哪些可能性?
我可以想象以下解决方案:
- 对原始pdf没有修改,点击句子会出现覆盖。Adobe Pdf Reader 可能无法使用,是否有可用的服务器端阅读器,我可以在其中执行此类操作(处理点击、获取点击文本、sdd 覆盖)?
- 将 pdf 转换为 html - 我可以在服务器端使用哪个转换器?(PHP 优先)
- 为浏览器创建自定义 pdf 阅读器 - 太复杂了
- ??
有什么建议么?
poppler - 使用 pdftohtml poppler 实用程序将多页 PDF 转换为单个 html 文件
我正在使用 poppler 实用程序将 PDF 文档转换为 HTML。但它为每个页面创建单独的 html 文件,但在将 pdf 转换为 html 后我想要一个 HTML 文件。
我使用了以下语法:
但它创建 abc-1.html、abc-2.html、....等
我也尝试过 pdftohtml -c abc.pdf abc.html
但没有得到预期的输出。
谁能告诉如何在单个文件而不是多个 html 文件中获取 html 输出?