问题标签 [pdfminer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3201 浏览

python-3.x - 使用带有空格的pdfminer提取pdf

我正在尝试从 pdf 中提取文本,这在 SO 中已多次讨论,但我仍然无法提取 pdf,保留单词之间的空格。

这是屈服:

'TowardtheRationalDesignofNovelNoncentrosymmetricMaterials:\nFactorsIn\nuencingtheFrameworkStructures\nKangMinOk\n*DepartmentofChemistry,Chung-AngUniversity,84Heukseok-ro,Dongjak-gu,Seoul06974,RepublicofKorea\nCONSPECTUS:Solid-statematerialswithextendedstructureshaverevealed\nmanyinterestingstructure-relatedch\naracteristics.Amongmany,materials\ncrystallizinginnoncentrosymmetric(NCS)空间群吸引了大量\n\注意归因于各种卓越的功能特性su

但是,如果我pdf2txt.py直接在终端中使用,我会得到:

我得到输出:

文章

pubs.acs.org/accounts

走向新型非中心对称材料的合理设计:影响框架结构的因素

康敏好*

韩国首尔市铜雀区黑石路 84 号中央大学化学系 06974

CONSPECTUS:具有扩展结构的固态材料揭示了许多有趣的与结构相关的特性。其中,在非中心对称 (NCS) 空间群中结晶的材料由于具有多种卓越的功能特性而引起了广泛关注。

这是所需的输出。

我没有在我的 python 脚本中发现我做错了什么。请帮忙。

0 投票
2 回答
1421 浏览

python - 从具有与复制+粘贴相同布局的 PDF 文件中获取数据

我有一个我希望自动化的过程,它涉及从 PDF 文件中获取一系列表格。目前,我可以通过在任何查看器(Adobe、Sumatra、okular 等)中打开文件来做到这一点,只需 Ctrl+A、Ctrl+C、Ctrl+V 到记事本,它使每一行都与合理的对齐足够的格式,然后我可以运行一个正则表达式并将其复制并粘贴到 Excel 中以供以后需要的任何内容。

当尝试使用 python 执行此操作时,我尝试了各种模块,PDFminer 是主要的模块,例如使用此示例可以工作。但它在单个列中返回数据。其他选项包括将其作为 html table 获取,但在这种情况下,它添加了额外的拆分中间表,这使解析更加复杂,甚至偶尔会在第一页和第二页之间切换列。

我现在已经得到了一个临时解决方案,但我担心我正在重新发明轮子,因为我可能只是缺少解析器中的核心选项,或者我需要考虑 PDF 渲染器方式的一些基本选项努力解决这个问题。

关于如何处理它的任何想法?

0 投票
2 回答
1171 浏览

python - 使用 pdfminer 转换多个文件

我在网上找到了允许使用pdfminerPython 中的模块将几个 pdf 文件转换为文本文件的代码。我试图扩展我保存在一个目录中的几个 pdf 文件的代码,但代码导致错误。

到目前为止我的代码:

错误信息:

0 投票
1 回答
409 浏览

python - pdfminer - 访问 PDF 表

我正在使用 pdfMiner 解析 PDF,将其用作我的 python 脚本中的库。

在大多数这些 PDF 中都有一个表格,其中一列被命名为“公司”。

有没有办法:1)检测PDF中该表的存在。2) 获取所有公司名称(即表格第二列中的所有条目)。

感谢您的帮助交流

0 投票
1 回答
1646 浏览

python - pdfminer 不会从填写的 pdf 表单中提取数据

我正在尝试使用pdfminer提取 pdf 表单中填写的内容。访问 pdf 的说明如下:

  1. 转到https://www.ffiec.gov/nicpubweb/nicweb/InstitutionProfile.aspx?parID_Rssd=1073757&parDT_END=99991231
  2. 点击从上数第四个报告旁边的“创建报告” (即银行组织系统性风险报告(FR Y-15))
  3. 点击“您的财务报告请求已准备就绪”

为了提取蓝色的内容,我从这篇文章中复制了代码:

这没有按预期提取数据字段 - 没有打印任何内容。我在另一个 pdf 上尝试了相同的代码并且它有效,所以我怀疑失败可能与第一个 pdf 的安全设置有关,如下所示 在此处输入图像描述

对于代码工作的第二个 pdf,安全设置对所有操作显示“允许”。我还尝试使用 pdfminer 的 pdf2txt.py 功能(请参见此处),但原始 pdf 表单(这是我想要的)字段中填写的数据不在转换后的文本文件中;仅转换了 pdf 的“平面”不可填充部分。有趣的是,如果我使用 Adob​​e Reader 的Save As Text将 pdf 转换为文本文件,则可填充部分转换后的文本文件中。这就是我一直在做的绕过失败的代码。

知道如何直接从 pdf 表单中提取数据吗?谢谢。

0 投票
1 回答
540 浏览

python - Python pdfminer pdf2html:撇号转换为特殊字符

我在 Python 中使用 pdfminer 包将 PDF 转换为 HTML,但它将撇号转换为特殊字符。例子:

‘This is a text between apostrophes’

应该:

'This is a text between apostrophes'

有什么方法可以将特殊字符转换回撇号或更改编码之类的吗?我对字符编码不是很熟悉。也许我可以选择一种编码来转换为 HTML?

0 投票
1 回答
2189 浏览

python - 无法执行 pdf2txt.py

尝试在 Windows 环境中使用 pdfminer 将 pdf 文件转换为 txt:https ://www.binpress.com/tutorial/manipulating-pdfs-with-python/167

我下载了 pdfminer 并成功运行了 setup.py。我无法运行 pip install,因为系统没有连接到 Internet。

当我从 C:\Python27 执行以下命令时

我收到以下错误:

我尝试将 pdfdocument.py 文件复制到 Python27\Tools 目录,但仍然出现相同的错误。

谢谢你。

0 投票
1 回答
804 浏览

python-2.7 - 使用 python 或任何其他语言将包含表格的 pdf 文档转换为 csv 文件

我试图将 pdf 文档(包括表格)转换为 csv 文件。不幸的是我失败了。我使用了以下方法:

  1. 首先使用pdfminer将 pdf 转换为文本,但文本文件的结构与 pdf 文件的结构不同。

  2. 首先使用pypdf2将 pdf 转换为文本,但文本文件的结构与 pdf 文件的结构不同。

  3. 首先使用pdftotext将 pdf 转换为文本,但文本文件的结构与 pdf 文件的结构不同。

  4. 首先使用slate将 pdf 转换为文本,但文本文件的结构与 pdf 文件的结构不同。

请告诉我将 pdf 转换为 csv 文件的适当方法。有人建议我将文档解析为 xml 文件,然后再解析为 csv 文件。即便如此,我也没有得到解决方案。

PDF 文档如下所示:

PDF 文档的图像在这里

有没有更好的工具可以将 pdf 文档(包括复杂的表格)转换为 csv 文件?

Python 语言的解决方案将不胜感激。

0 投票
0 回答
210 浏览

python - 提取关键字PDF并使用python将其导出到excel文件?

如何从一组 PDF 文件中提取关键字,然后将结果导出到 EXCEL 文件?

我使用了从子流程导入 PIPE、Popen 并尝试使用 PDFminer 但徒劳无功。

0 投票
0 回答
2370 浏览

python - 为什么会说“pdfminer 中未定义‘PDF 文档’”?

我是 Python 的完整初学者。我真的是上周末开始的。我正在使用 Python 3。

我正在尝试从 pdf 文件中读取文本。我首先按照 Automate the Boring Stuff 中的说明尝试了 pyPDF2,但我得到的结果在单词之间没有空格,因此无法使用。然后我通过在命令行中输入“pip install pdfminer3k”来安装 pdfminer3k。

然后我在解释器中输入了以下几行:

但最后一行给了我这个错误信息:

Traceback(最近一次调用最后一次):文件“”,第 1 行,在 document = PDFDocument(parser, password) NameError: name 'PDFDocument' is not defined

有谁知道为什么我会收到该错误消息?我认为 PDFDocument 会在 pdfminer 模块中定义。更一般地说,如何弄清楚这样的东西?是否有资源可以解释如何使用像 pdfminer 这样的模块?非常感谢并为我的完全无知道歉。