问题标签 [pdf-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

113 问题

0 投票

1 回答

1298 浏览

mupdf - PyMuPDF中的段落提取

我正在使用 PyMuPDF 从块单元的 PDF 中提取文本。在许多情况下，“块”似乎只是默认为换行符分隔的单元，而不是逻辑段落。

（example.pdf 可以在这里找到）

如果不是从 Mac 的沼泽标准预览应用程序直接复制/粘贴，我可以忍受这一点，精美地保留了段落。PyMuPDF 不做的 Preview 是什么？我的管道的其余部分几乎都锁定在 PyMuPDF 中，所以我不能真正使用 Preview 进行提取。

2020-11-06T05:54:04.587

0 投票

0 回答

14 浏览

python - 如何从 Python 中的 URL 下载 pdf 并将其转换为全文（用于数据集传递的 HTML/字典）？

我以下面的 pdf 为例：

http://www.courts.wa.gov/content/publicUpload/Supreme%20Court%20Orders/Jury%20Resumption%20Order%20061820.pdf

我如何在 python 中远程下载这个 pdf 到本地；将其转换为 HTML 中的全文或 Python 字典以输入到外部数据库（如 MySQL）？

我正计划使用数据集传递到 MySQL。

有人成功了吗？

谢谢！

〜布兰登

python pdf pdf-extraction

2020-12-29T15:20:24.843

0 投票

2 回答

413 浏览

python - 尝试从 PDF 中提取时出现“Nonetype 对象不可迭代”

我正在尝试从 PDF 中提取数据，但我不断收到类型错误，因为我的对象不可迭代（在声明中for line in text:但我不明白为什么“文本”没有价值，就在上面我使用创建文本对象text = page.extract.text()然后我想遍历文本的每一行以查找与我的正则表达式匹配的内容。

恐怕我的陈述for line in text:有问题；也许使用'line'是不合适的，但我不知道还能做什么。

我的代码如下，感谢观看！

python nonetype pdf-parsing pdf-extraction

2021-01-10T01:27:02.203

0 投票

1 回答

302 浏览

python - Python - OpenCV pytesseract 不从裁剪图像中提取字符串

我有一张图片（附加）并想从表单中提取某些字段。例如名字“莎拉”、她的电子邮件地址等。我有感兴趣的区域，它被突出显示，然后被裁剪。出于某种原因，我从图像到字符串的输出显示为空？

所需的输出应提取数据。请有人能指出我正确的方向吗？我正在关注这个很棒的上下文教程：https ://www.youtube.com/watch?v=cUOcY9ZpKxw

下面的代码：

python python-3.x opencv tesseract pdf-extraction

user11874651

2021-01-24T17:19:34.197

0 投票

2 回答

427 浏览

python - PDF到Python中的文本在图像文件中返回空结果

我有这个pdf 文件。基于图像的低分辨率 pdf 文件。我正在尝试提取其中的数据，而我尝试过的所有选项似乎都不起作用。

选项 1 - 使用 pdfminer

选项 2 - 使用 tika

选项 3 - 使用 pypdf

所有选项都返回空结果。我想这可能与文件的质量有关。我知道我们可以处理图像并增加图像特征以简化数据提取（增加图像大小、处理阈值等，你可以用 PIL 做很多事情）。有没有一种有效的方法来处理 pdf 文件？

python pdf pypdf2 pdfminer pdf-extraction

2021-02-19T19:25:45.653

0 投票

1 回答

59 浏览

python - 使用 io 从 PDF url 中提取文本，PyPDF2 没有输出

我正在尝试从 pdf url 中提取文本。如果我下载 PDF，我可以使用函数轻松提取文本slate。但是，当尝试导入 pdfio并提取文本时，返回的输出什么都没有。下面附上的代码。

我尝试了许多其他功能，但都无法正常工作。难道我做错了什么？

python web-scraping io pdftotext pdf-extraction

2021-02-27T19:46:02.550

0 投票

1 回答

743 浏览

python - 如何在 PDF 文件中查找表格网格线？

为了更准确地提取嵌入在表格单元格中的类似表格的数据，我希望能够识别 PDF 中的表格单元格边界，如下所示：

我曾尝试使用 Camelot、pdfplumber 和 PyMuPDF 提取此类表，并取得了不同程度的成功。但由于我们收到的 PDF 不一致，即使指定表格边界，我也无法可靠地获得准确的结果。

我发现如果我通过明确指定单元格边界来单独提取每个表格单元格，结果会更好。我已经通过手动输入边界进行了测试，这是我使用 Camelot 的可视化调试工具获得的。

我的挑战是如何以编程方式识别表格单元格边界，因为表格可能从页面上的任何位置开始，并且单元格的垂直高度可变。

在我看来，可以通过查找行分隔线的坐标来做到这一点，这对人类来说在视觉上是如此明显。但我还没有弄清楚如何使用 python 工具找到这些行。这是可能的，还是有其他/更好的方法来解决这个问题？

python pdf-extraction python-camelot pymupdf pdfplumber

2021-03-03T19:26:29.787

0 投票

0 回答

21 浏览

c++ - PDF 中的自定义字符集表

我想在我的 PDF 查看器（C++ Windows 应用程序）中打印这些字符 PDF 示例恰好包含具有这些DifferenceArray 的“Type1Fonts” ，并且不存在 toUnicodeTable。内容流包含以下 Tj

我必须阅读字符的方式应该是使用“差异数组”

此处显示“自定义字符集”表

获得正确的 CustomcharsetIndex 后，我可以使用 Freetype 库来获取 glyphIndex 并将字形绘制到我的查看器中

int glyphIndex = FT_Get_Char_Index (face, CustomcharsetIndex)

我无法弄清楚“step2”。有什么建议，有没有办法使用 Freetype API 来解决这个问题，因为我有差异字符串“afii10021”（第 1 步）？

c++pdf freetype freetype2 pdf-extraction

2021-03-05T12:15:09.740

0 投票

1 回答

579 浏览

python - 使用 Amazon textract 将所有表格数据从 PDF 导出到 Excel

期待使用 Amazon Textract 将 PDF 数据提取到 Excel/CSV。我们如何从本地文件夹插入输入 PDF 数据。

有了包含多个表格的 PDF，我们需要从它们各自的页面中提取所有表格并将数据导出到 CSV/Excel 文件。可用于进一步分析。

从 AWS 收到的一段代码，但无法理解如何将输入的 pdf 文件纳入脚本。

示例 PDF 文件点击这里

python amazon-web-services pdf pdf-extraction amazon-textract

2021-03-17T18:33:47.693

0 投票

0 回答

158 浏览

itext7 - 我可以在 vb.net 中使用 itext 7 从 PDF 中提取表格吗，如果可以，请分享一些代码建议

我需要使用 itext7 从 pdf 中提取表格，因为它在 vb.net 中。如果可能，请提供帮助

itext7 pdf-extraction

2021-03-31T08:01:48.180

1 2 3 4 5 6 7 8 9 10

问题标签 [pdf-extraction]

Reference