问题标签 [pdfplumber]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ModuleNotFoundError:没有名为“pdfplumber”的模块
我想导入pdfplumber
并尝试
并发现错误:
尝试使用安装pip3 install pdfplumber
并返回:
但是命令提示符显示我已经安装了模块?
但import pdfplumber
返回同样的错误。如何导入pdfplumber
?
python - 如何在 PDF 文件中查找表格网格线?
为了更准确地提取嵌入在表格单元格中的类似表格的数据,我希望能够识别 PDF 中的表格单元格边界,如下所示:
我曾尝试使用 Camelot、pdfplumber 和 PyMuPDF 提取此类表,并取得了不同程度的成功。但由于我们收到的 PDF 不一致,即使指定表格边界,我也无法可靠地获得准确的结果。
我发现如果我通过明确指定单元格边界来单独提取每个表格单元格,结果会更好。我已经通过手动输入边界进行了测试,这是我使用 Camelot 的可视化调试工具获得的。
我的挑战是如何以编程方式识别表格单元格边界,因为表格可能从页面上的任何位置开始,并且单元格的垂直高度可变。
在我看来,可以通过查找行分隔线的坐标来做到这一点,这对人类来说在视觉上是如此明显。但我还没有弄清楚如何使用 python 工具找到这些行。这是可能的,还是有其他/更好的方法来解决这个问题?
python - 如何阻止 pdfplumber 读取每页的标题?
我希望 pdfplumber 从用户提供的随机 pdf 中提取文本。问题是 pdfplumber 还从每个页面中提取标题文本或标题。如何对 pdfplumber 进行编程以不读取页眉(标题)和页码(或页脚,如果可能)?
这是代码:
file
PDF文件在哪里...
python - 我在 python 中从 pdf 中提取印地语文本时遇到问题
我在 python 中使用 pdfplumber。它不能很好地提取印地语文本。它显示错误的结果。输入:माँ, मैं रात का खाना ले आऊँगा। 输出: म ,ाँ म ैं र त क ख न ले आऊाँग । 我想要确切的输出..任何解决方案?
python - 在 Django 中使用 Python 库
![发票][1]
![python 脚本][2]
[1]:[2]:https ://i.stack.imgur.com/Y6Ebm.png
你好!如果有人能帮助我解决在 Django 中使用 Python 库的疑问,我将不胜感激。我会尽量说清楚,所以这里是:
在我的工作中,我使用的发票都保存在特定目录(PDF 文件)中,并且它们都具有相同的结构。在我的工作中,我只对一行中的一个特定值感兴趣,即数字。我的工作是从所有发票中提取该值并将它们全部汇总。因此,我制作了一个 python 脚本,在其中使用了 Pandas、os 和 PDFplumber 库,它运行良好。在 code.png 中,您可以看到我使用 PDFplumber 提取我想要的行和值的循环,然后对所有这些值求和。在 invoice.png 中,您可以看到 PDFplumber 如何将发票分成行和列。
所以,事情是这样的:我想部署一个 Django 应用程序,以便企业中的其他人可以使用我使用的 python 脚本(他们对 Python 编程一无所知)。所以,我想部署一个 Django 应用程序,他们可以在其中上传包含所有 PDF 文件的目录,然后使用我在 code.png 中显示的 python 脚本。但我对它背后的逻辑有疑问。我的问题是:
- 我们可以在 Django 中使用任何 python 库(例如 PDFplumber、pandas 等)吗?
- 我会把我的python脚本放在views.py中吗?(像这样的东西)
应用程序/views.py
预先感谢您!
python-3.x - PDFPlumber 返回符号和不准确的文本
我正在尝试使用 PDFplumber 从 pdf 文件中提取文本
但是,我得到的输出如下。它没有拾取确切的文本并返回符号-
python - 从pdf中提取文本时如何忽略表格及其内容
到目前为止,我已成功从 pdf 文件中提取文本内容。我被困在必须提取表格之外的文本内容(忽略表格及其内容)并需要帮助的地步
Pdf 可以从这里下载
python - 将 pytesseract.Output.DATAFRAME 转换为字节或 ocr'ed pdf
pytesseract.image_to_data()
是否可以使用输出追溯写入 pdf 文件?
对于我的 OCR 管道,我需要对我的 pdf 的 ocr'ed 数据进行精细访问。我要求使用这种方法:
现在,我想使用 pdfplumber 从 pdf 中提取一些表格数据。但是,必须使用以下三个输入之一来馈送 pdfplumber:
- PDF 文件的路径
- 文件对象,作为字节加载
- 类文件对象,作为字节加载
我知道我可以使用 pytesseract 使用以下方法将我的原始 pdf 转换为可搜索的(以字节表示):
但是,我想避免 ocr'ing 我的 pdf 两次。是否可以将输出pytesseract.image_to_data()
与原始图像结合起来并创建某种字节表示?
任何帮助将非常感激!
python - 如何优化(也是 RAM 明智的)将单词从 PDF 保存到 Python 对象并稍后保存到数据库的代码?
我正在寻找将 PDF 文件中的文本保存到我的数据库中的最有效方法。目前我正在使用带有标准代码的pdfplumber,如下所示:
但是当前的代码是文学性的扼杀我的机器(对于 600 页的 PDF,它需要大约 3 到 6 GB 的 RAM),我的目标是实际将它托管在手机上。
我做了一些测试,似乎阅读 PDF 不是问题,但是保存或存储这些单词是有问题的。我试图创建 dict ,其中每个页面字符串都是一个键/值,但并没有好多少。
也许我应该尝试将每个页面生成 txt 文件,然后从这个 txt 文件中读取字符串?
我将不胜感激任何提示,谢谢!
编辑:
我将代码更改为那个,它稍微好一点,(现在它需要大约 2.9 GB 的 RAM)但它仍然很多。我能做更多的事情吗?