问题标签 [pdf-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

113 问题

0 投票

0 回答

27 浏览

itext7 - 有什么方法可以从 PDF 中提取整个矩形，而无需在 c# 或 VB.net 中使用 itext7 逐行提取

我一直在使用 RenderPath 从 PDF 中提取路径，但是通过这种方式，我分别获得了所有 4 行矩形。有没有办法让整个矩形成为一个整体？我需要用坐标提取矩形的高度和宽度。

itext7 pdf-extraction

2021-03-31T11:36:16.613

0 投票

1 回答

93 浏览

colors - 如何将 DeviceRGB 转换为 System.Drawing.Color？

我正在尝试使用 itext7 使用 fillclr= pathrenderinfo.getfillcolor.getcolorvalue() 获取路径的填充颜色，但它以 deviceRGB 的格式给出值，我需要在 System.Drawing.Color 中实现它。有没有办法将 DeviceRGB 颜色值转换为 System.Drawing.Color ？

colors itext7 color-space pdf-extraction

2021-04-07T05:32:50.530

0 投票

0 回答

40 浏览

colors - 我可以在 vb.net 中将 DeviceGray 颜色空间转换为 DeviceRGB 吗？

我需要在使用 itext7 提取 pdf 内容时将 DeviceGray 颜色空间转换为 DeviceRGB 颜色空间，可以吗？

colors itext7 pdf-extraction

2021-04-07T10:01:54.837

0 投票

0 回答

37 浏览

itext7 - 如果我使用 itext7 pdf 提取在“分离”颜色空间中获得值 1，那么确切的颜色是什么？

我一直在用 itext7 提取 pdf 并使用 textrenderinfo.getfillcolor() 来填充文本的颜色。我将色彩空间设为“分离”色彩空间，并将色彩值设为 1。如何在 rgb 中获取此色彩空间？

itext7 color-space pdf-extraction

2021-05-10T06:35:38.027

0 投票

4 回答

1212 浏览

python - 如何改进印地语文本提取？

我正在尝试从 PDF 中提取印地语文本。我尝试了所有从 PDF 中提取的方法，但都没有奏效。有解释为什么它不起作用，但没有答案。因此，我决定将 PDF 转换为图像，然后用于pytesseract提取文本。我已经下载了经过印地语训练的数据，但这也给出了非常不准确的文本。

这是 PDF 中的实际印地语文本（下载链接）：

到目前为止，这是我的代码：

这是一些输出样本：

这个问题有一个答案我想用 python 抓取一个印地语（印度语言）pdf文件，这似乎告诉了如何做到这一点，但没有提供任何解释。

除了自己训练语言模型之外，还有什么方法可以做到这一点？

python python-tesseract pdf-extraction

2021-06-03T06:06:20.360

0 投票

2 回答

1033 浏览

python - PDF 文本提取并将它们存储为键值对

我想从 PDF 中提取文本。我从文本提取中得到的输出没有那么有条理。

PDF 链接（仅第一页）：https ://microprecision.com/wp-content/uploads/2020/08/Sample-Cert_rev-7-1.pdf

我想提取 MPC 控制编号、序列号、型号等参数，并将它们作为键值对存储在字典中。

我正在使用以下代码尝试此操作，但没有获得所需的输出。

python regex text-mining pdftotext pdf-extraction

2021-06-16T08:45:12.663

0 投票

1 回答

58 浏览

python - Camelot 无法提取整个表

我使用 Camelot 从 PDF 中提取表格信息，我使用 ocrmypdf(500dpi) 将其从扫描转换为可搜索。

Camelot 似乎能够识别表并提取表中的大部分数据，但似乎无法提取下半部分。本质上，它看到了表格的上半部分，但似乎无法将文本与下半部分分开。

这是相关 PDF 中的表格：

但是当我使用 Camelot 的可视化调试方法时，我要求它向我展示它将提取的单词，它似乎将表格的底部识别为一个巨大的块

您可以在此处提供的有关改进 Camelots“视力”的任何指导都会有所帮助。

python pdf-extraction python-camelot pdftables ocrmypdf

2021-06-26T14:58:16.663

0 投票

1 回答

113 浏览

rpa - 有什么方法可以使用 UiPath 从冗长的 PDF 中提取表格？

我需要编写一个过程来使用 UiPath 从包含 20-25 页的冗长 PDF 中提取多个表格。我在这里遇到的问题是每月更改的页数。

rpa uipath uipath-studio pdf-extraction

2021-06-30T09:19:13.013

0 投票

0 回答

146 浏览

python - 按顺序从 PDF 中提取注释/注释 - Python

我正在尝试使用 Python 从 PDF 中提取评论。这是我测试过的两段代码：

一个使用PyPDF2：

另一个使用fitz：

评论正在被提取，但是当我检查 PDF 时，我发现评论没有按顺序提取。我试图检查其他参数，如创建日期、修改日期，但这对我没有帮助。

当它们出现在 PDF 中时，它们是我可以连续提取它们的一种方式吗？或者我是否也可以从已标记评论的 PDF 中提取文本？

python pypdf2 pdf-extraction

2021-07-06T07:33:43.180

0 投票

0 回答

70 浏览

python - 使用 pdftabextract 提取 PDF 表格数据

我正在尝试从基于文本的 pdf 中提取表格数据。PDF 有不同的格式，我必须制定一个通用的解决方案。我遇到了一个名为“pdftabextract”的库来完成这项任务。但是，它适用于扫描的文档，并且专为相同的目的而设计。

我想将它用于基于文本的 pdf，但不知道该怎么做。

文章链接：https ://datascience.blog.wzb.eu/2017/02/16/data-mining-ocr-pdfs-using-pdftabextract-to-liberate-tabular-data-from-scanned-documents/

上面的文章显示了一步一步的方法。但是，我不知道如何将它用于基于文本的 pdf。请帮忙。

python pdf-extraction pdftables

2021-07-12T09:53:39.790

1 2 3 4 5 6 7 8 9 10