问题标签 [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
itext7 - 有什么方法可以从 PDF 中提取整个矩形,而无需在 c# 或 VB.net 中使用 itext7 逐行提取
我一直在使用 RenderPath 从 PDF 中提取路径,但是通过这种方式,我分别获得了所有 4 行矩形。有没有办法让整个矩形成为一个整体?我需要用坐标提取矩形的高度和宽度。
colors - 如何将 DeviceRGB 转换为 System.Drawing.Color?
我正在尝试使用 itext7 使用 fillclr= pathrenderinfo.getfillcolor.getcolorvalue() 获取路径的填充颜色,但它以 deviceRGB 的格式给出值,我需要在 System.Drawing.Color 中实现它。有没有办法将 DeviceRGB 颜色值转换为 System.Drawing.Color ?
colors - 我可以在 vb.net 中将 DeviceGray 颜色空间转换为 DeviceRGB 吗?
我需要在使用 itext7 提取 pdf 内容时将 DeviceGray 颜色空间转换为 DeviceRGB 颜色空间,可以吗?
itext7 - 如果我使用 itext7 pdf 提取在“分离”颜色空间中获得值 1,那么确切的颜色是什么?
我一直在用 itext7 提取 pdf 并使用 textrenderinfo.getfillcolor() 来填充文本的颜色。我将色彩空间设为“分离”色彩空间,并将色彩值设为 1。如何在 rgb 中获取此色彩空间?
python - 如何改进印地语文本提取?
我正在尝试从 PDF 中提取印地语文本。我尝试了所有从 PDF 中提取的方法,但都没有奏效。有解释为什么它不起作用,但没有答案。因此,我决定将 PDF 转换为图像,然后用于pytesseract
提取文本。我已经下载了经过印地语训练的数据,但这也给出了非常不准确的文本。
这是 PDF 中的实际印地语文本(下载链接):
到目前为止,这是我的代码:
这是一些输出样本:
这个问题有一个答案我想用 python 抓取一个印地语(印度语言)pdf文件,这似乎告诉了如何做到这一点,但没有提供任何解释。
除了自己训练语言模型之外,还有什么方法可以做到这一点?
python - PDF 文本提取并将它们存储为键值对
我想从 PDF 中提取文本。我从文本提取中得到的输出没有那么有条理。
PDF 链接(仅第一页):https ://microprecision.com/wp-content/uploads/2020/08/Sample-Cert_rev-7-1.pdf
我想提取 MPC 控制编号、序列号、型号等参数,并将它们作为键值对存储在字典中。
我正在使用以下代码尝试此操作,但没有获得所需的输出。
rpa - 有什么方法可以使用 UiPath 从冗长的 PDF 中提取表格?
我需要编写一个过程来使用 UiPath 从包含 20-25 页的冗长 PDF 中提取多个表格。我在这里遇到的问题是每月更改的页数。
python - 按顺序从 PDF 中提取注释/注释 - Python
我正在尝试使用 Python 从 PDF 中提取评论。这是我测试过的两段代码:
一个使用PyPDF2
:
另一个使用fitz
:
评论正在被提取,但是当我检查 PDF 时,我发现评论没有按顺序提取。我试图检查其他参数,如创建日期、修改日期,但这对我没有帮助。
当它们出现在 PDF 中时,它们是我可以连续提取它们的一种方式吗?或者我是否也可以从已标记评论的 PDF 中提取文本?
python - 使用 pdftabextract 提取 PDF 表格数据
我正在尝试从基于文本的 pdf 中提取表格数据。PDF 有不同的格式,我必须制定一个通用的解决方案。我遇到了一个名为“pdftabextract”的库来完成这项任务。但是,它适用于扫描的文档,并且专为相同的目的而设计。
我想将它用于基于文本的 pdf,但不知道该怎么做。
上面的文章显示了一步一步的方法。但是,我不知道如何将它用于基于文本的 pdf。请帮忙。