问题标签 [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
27 浏览

itext7 - 有什么方法可以从 PDF 中提取整个矩形,而无需在 c# 或 VB.net 中使用 itext7 逐行提取

我一直在使用 RenderPath 从 PDF 中提取路径,但是通过这种方式,我分别获得了所有 4 行矩形。有没有办法让整个矩形成为一个整体?我需要用坐标提取矩形的高度和宽度。

0 投票
1 回答
93 浏览

colors - 如何将 DeviceRGB 转换为 System.Drawing.Color?

我正在尝试使用 itext7 使用 fillclr= pathrenderinfo.getfillcolor.getcolorvalue() 获取路径的填充颜色,但它以 deviceRGB 的格式给出值,我需要在 System.Drawing.Color 中实现它。有没有办法将 DeviceRGB 颜色值转换为 System.Drawing.Color ?

0 投票
0 回答
40 浏览

colors - 我可以在 vb.net 中将 DeviceGray 颜色空间转换为 DeviceRGB 吗?

我需要在使用 itext7 提取 pdf 内容时将 DeviceGray 颜色空间转换为 DeviceRGB 颜色空间,可以吗?

0 投票
0 回答
37 浏览

itext7 - 如果我使用 itext7 pdf 提取在“分离”颜色空间中获得值 1,那么确切的颜色是什么?

我一直在用 itext7 提取 pdf 并使用 textrenderinfo.getfillcolor() 来填充文本的颜色。我将色彩空间设为“分离”色彩空间,并将色彩值设为 1。如何在 rgb 中获取此色彩空间?

0 投票
4 回答
1212 浏览

python - 如何改进印地语文本提取?

我正在尝试从 PDF 中提取印地语文本。我尝试了所有从 PDF 中提取的方法,但都没有奏效。有解释为什么它不起作用,但没有答案。因此,我决定将 PDF 转换为图像,然后用于pytesseract提取文本。我已经下载了经过印地语训练的数据,但这也给出了非常不准确的文本。

这是 PDF 中的实际印地语文本(下载链接):

实际印地语

到目前为止,这是我的代码:

这是一些输出样本:

这个问题有一个答案我想用 python 抓取一个印地语(印度语言)pdf文件,这似乎告诉了如何做到这一点,但没有提供任何解释。

除了自己训练语言模型之外,还有什么方法可以做到这一点?

0 投票
2 回答
1033 浏览

python - PDF 文本提取并将它们存储为键值对

我想从 PDF 中提取文本。我从文本提取中得到的输出没有那么有条理。

PDF 链接(仅第一页):https ://microprecision.com/wp-content/uploads/2020/08/Sample-Cert_rev-7-1.pdf

我想提取 MPC 控制编号、序列号、型号等参数,并将它们作为键值对存储在字典中。

我正在使用以下代码尝试此操作,但没有获得所需的输出。

0 投票
1 回答
58 浏览

python - Camelot 无法提取整个表

我使用 Camelot 从 PDF 中提取表格信息,我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据,但似乎无法提取下半部分。本质上,它看到了表格的上半部分,但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格:

PDF 中的表格

但是当我使用 Camelot 的可视化调试方法时,我要求它向我展示它将提取的单词,它似乎将表格的底部识别为一个巨大的块

表的可视化调试

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。

0 投票
1 回答
113 浏览

rpa - 有什么方法可以使用 UiPath 从冗长的 PDF 中提取表格?

我需要编写一个过程来使用 UiPath 从包含 20-25 页的冗长 PDF 中提取多个表格。我在这里遇到的问题是每月更改的页数。

0 投票
0 回答
146 浏览

python - 按顺序从 PDF 中提取注释/注释 - Python

我正在尝试使用 Python 从 PDF 中提取评论。这是我测试过的两段代码:

一个使用PyPDF2

另一个使用fitz

评论正在被提取,但是当我检查 PDF 时,我发现评论没有按顺序提取。我试图检查其他参数,如创建日期、修改日期,但这对我没有帮助。

当它们出现在 PDF 中时,它们是我可以连续提取它们的一种方式吗?或者我是否也可以从已标记评论的 PDF 中提取文本?

0 投票
0 回答
70 浏览

python - 使用 pdftabextract 提取 PDF 表格数据

我正在尝试从基于文本的 pdf 中提取表格数据。PDF 有不同的格式,我必须制定一个通用的解决方案。我遇到了一个名为“pdftabextract”的库来完成这项任务。但是,它适用于扫描的文档,并且专为相同的目的而设计。

我想将它用于基于文本的 pdf,但不知道该怎么做。

文章链接:https ://datascience.blog.wzb.eu/2017/02/16/data-mining-ocr-pdfs-using-pdftabextract-to-liberate-tabular-data-from-scanned-documents/

上面的文章显示了一步一步的方法。但是,我不知道如何将它用于基于文本的 pdf。请帮忙。