问题标签 [pdfplumber]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Conda 不会安装 pdfplumber
我正在尝试使用 miniconda3 安装 pdfplumber。我不断收到此错误消息,但我不知道如何解释它。
还:
使用 pip 不是一个选项,因为它绝对不能在我的公司代理后面工作,而 miniconda3 可以。
python - 在保存为图像的 pdf 中抓取文章
我有一个这样的文件,我想在第 4 页获取名为“公共公告”的文章的内容。我需要图像或文本格式的内容。也只是其中一篇,可能还有多篇类似的文章。就像在左侧一样,您有两篇与背靠背招标相关的文章。
我尝试过使用 pytesseract,但它会逐行读取整个图像并将多个内容混合在一起,例如第 4 页上的“运输公司 Hyaat Regency”将两篇文章混合在一起。
这是我使用的代码:
我也使用过image_to_string
功能,但这没有帮助。关于如何从上述示例 pdf 中找到框并从这些框中提取图像或文本的任何建议?如果有帮助,我可以提供某些关键字来找出我需要的相关框。或者有没有更好的方法从样本 pdf 中提取文章?
我也尝试过 pdfplumber,它没有帮助,因为它需要我无法提供的盒子开始和结束位置。有没有办法以某种方式为我的文章获取这些坐标?
同样,菲茨也没有帮助,因为它似乎将整个页面视为一个图像而不是将其分解。
python - 如何使用 PDFPlumber 从两列 PDF 中提取文本
我正在使用 python 进行主题建模任务,我想从年度/可持续发展报告中提取文本。但是我的问题是,当我尝试提取报告时,提取的行在页面中的两个不同列之间断开,即,它将相邻段落中的两个不同行连接成一个句子。如何完全按照报告中的方式提取线条。我附上了报告的版本和函数提取的行。
以下是我使用的功能:
#function 从 url 获取 pdf:
该图像是我正在提取的报告中的一个片段,报告中的文本分为两列,extract_content 函数将这两列混合起来得到一行,即将两列中的行连接起来并呈现为一行。
这是报告的第一行(第一列和第二列的开头由函数合并在一起):
\n我在 2019 年的首要职责之一是接受采访。当我们开始新的战略期时,在 2016 年的“早安挪威”节目之外,我表示希望 AF 能感受到\nAF 的目标是增加一倍的百分比就像我们希望超越\nwomen时一样紧密
如果我能以报告中给出的确切方式提取句子,那将会很有帮助。
pdf-generation - 如何使用python将pdf的每一页转换为pdf对象
我想将 pdf 文件的每一页创建为一个新的 pdf 对象。我正在关注提到的代码片段https://stackoverflow.com/a/490203/13291630但这里显示为创建一个新文件,但我只想创建一个 pdf 对象而不创建一个新文件并使用像所有其他 pdf 一样创建 pdf 对象。我希望这些信息有帮助,任何人都可以在这里帮助我。
python - Pdfplumber cannot recognize table
image.reset().debug_tablefinder()
how to convert it into tables that can be recognized by pdfplumber?
python - 用于 PDF 到 Excel 的 Python 和 PDFPlumber
我正在使用 PDFPlumber 将 PDF 提取到 Excel。我将文本分成几行,用空格分隔并识别以特定文本开头的行。问题是,这些行包含“最后一个,第一个 M”格式的名称,我无法弄清楚如何将这些名称保持在一起。我想抓住####,日期和日期(代码)左侧的文本块,然后将剩余的文本分配为代表名称的一列,但我真的不知道该怎么做它或者如果这是有道理的。
下面是我的代码以及数据如何在 PDF 上显示的示例:
PDF:*注意,SSN 字面上显示为 4 个#。此外,代码列只能是:S、E/D、E/S、F
到目前为止我的代码:(错误,因为名称中的空格会创建额外的列)
python - 在 Python 中提取 PDF 文件的文本和表格
我正在寻找一种从 PDF 文件中提取文本和表格的解决方案。虽然有些包很适合提取文本,但它们不足以提取表格。
一种解决方案是使用 Azure 表单识别器布局模型,但是当我们混合使用文本和表格时它会失败,特别是当表格是一种文本格式并且它们将表格和文本的内容混合在一起时(请参阅 Azure 表单识别器代码https ://github.com/Azure-Samples/cognitive-services-quickstart-code/blob/master/python/FormRecognizer/rest/python-train-extract.md)。
我也试过 pypdf2 和 pdfplumber;这是pypdf2的代码:
首先, pypdf2 对某些 pdf 文件效果不错,但它失败并且不会保留某些 pdf 的单词之间的空格,例如(来自https://www.researchgate.net/publication/342920307_Using_Topic_Modeling_Methods_for_Short-Text_Data_A_Comparative_Analysis的 pdf 文件):
其次,如果页面中存在表格,我如何提取表格?pdfplumber 可以使用 extract_text() 和 extract_table() 注释提取文本和表格。它无法为某些文档保留单词之间的空格。当我们有经验的双列 pdf 文件时,它也会失败。
Tabula 是另一种选择,但我从他们的网站https://github.com/tabulapdf/tabula看到的表格很好。我的最终问题是从给定单列或双列页面的 pdf 文件中提取内容、文本和表格的最佳实践是什么。
python - 如何用pdfplumber完成for循环?
问题
我正在关注本教程https://www.youtube.com/watch?v=eTz3VZmNPSE&list=PLxEus0qxF0wciRWRHIRck51EJRiQyiwZT&index=16
当代码返回我的这个错误时。
目标
我需要抓取一个看起来像这样的pdf(我想附上pdf,但我不知道如何):
方法
我正在按照前面提到的 pdfplumber 教程进行操作。
我将我想要作为最终产品的数据框列命名。
问题
与有 2 个的教程示例相比,我有 5 个不同的行。
问题
当我在代码中引入第三行时,出现了一个我不知道的错误。我已按照 2e0byo 的建议修改了代码,但仍然出现错误。
这是新代码:
这是新的错误:
df = pd.DataFrame(line_items)