问题标签 [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
608 浏览

python - 卡米洛特切换角色

我正在尝试使用 Camelot 解析 PDF 中的表格。单元格中有多行文本,有些单元格有一个空行分隔部分文本:

我希望这被解析为First line\nSecond line\n\nThird line(注意双换行符),但我得到了这个:T\nFirst line\nSecond line\nhird line. 双换行符后的第一个字符移动到文本的开头,而我只得到一个换行符。

我也尝试使用制表符,但是当表中有一个空行时,它会弄乱整个表(实际上是数据框),并且在某些单词的情况下,它会在字符之间放置一个空格。

编辑:

我的主要问题是删除多个换行符。如果我知道空行在哪里,我可以从代码中修复另一个。

0 投票
1 回答
420 浏览

python-3.x - 使用 camelot 从 pdf 中提取文本时如何剥离 (CID:)

我正在使用 Camelot 从 pdf 中提取文本。pdf 还包含 Camelot 为其打印Cid的中文字符。例如(cid:3634)

我想去掉那些 CID,因为汉字对我没有影响。

我试过这个:

但只删除 CID 帧而不是其中的数字。

请在此处查看示例输出图像 请帮助。

0 投票
1 回答
31 浏览

python-3.x - 将图像上传到云端,然后将相应的链接粘贴到相应的数据框

我有带有表格的 PDF 和与表格内容相关的图像图。表格和图像都在一个页面上。

我已经使用 Camelot 库提取了表格。还有使用 Fitz 库的图像。使用 Python

现在我想将这些图像(.png)上传到任何可能的云服务,并将相应图像的 Web 链接提供到相应表的 Dataframe。

请帮忙。

这就是单页 PDF 的外观。

0 投票
1 回答
309 浏览

python-3.x - 如何将 PDF 中的表格解析为非英语语言

我正在使用 Camelot 和 tabula 来解析带有西里尔符号的 pdf 文件。但是在输出的 CSV 文件中,我得到了没有俄语符号的混乱字体。

什么可以帮助我解析非英语语言的 pdf 表?

输出: 0055529-1295-06-UT。 ГЧЧ45

0 投票
2 回答
1069 浏览

python - Python:AttributeError:模块“camelot”没有属性“read_pdf”

面临以下问题:有人可以帮忙吗?请..

尝试从 PDF 中提取表格数据时获取以下内容。

0 投票
0 回答
87 浏览

python-camelot - Python - 使用 camelot 翻转文本以从 PDF 中提取表格

我正在使用图书馆 camelot 来阅读 PDF 和提取表格。对于大多数 PDF,它可以完美运行。但对于其他 PDF,文本会被翻转。

有谁知道是什么原因造成的以及如何解决它?

这是 PDF 的链接:https ://drive.google.com/file/d/1Br34gJlx_7VUBmTYCTKXy1502qls44i7/view?usp=sharing

注意:PDF 是希伯来语,应该翻转,但它只发生在这种 PDF 中,还要注意英语和数字也被翻转了,例如HSITIRB应该是BRITISH

0 投票
1 回答
407 浏览

python - Python Camelot / Ghostscript“错误的架构”错误

我遇到了一个错误,超出了我的调试能力。Camelot 对 Ghostscript 的使用似乎找到了错误架构的可执行文件。

采取的步骤:

  1. brew install Ghostscript
  2. 检查是否可以找到 Ghostscript 的可执行文件,根据文档,它不能。
  3. 添加/opt/homebrew/bin/opt/homebrew/lib适当的路径(我认为?)
  4. 根据 Camelot 的 GitHub 上错误 #282 的解决方法,我更改了camelot/camelot/ext/ghostscript/_gsprint.py Line 256

libgs = ctypes.util.find_library("gs")libgs = distutils.spawn.find_executable("gs")

  1. 使用新的(以上)代码再次检查依赖项。成功。/opt/homebrew/bin/gs
  2. python3.9 -m pip install camelot-py
  3. 尝试使用 Ghostscript 运行 Camelot。错误如下图。

我应该注意,gsin 位置/opt/homebrew/bin/gs似乎是一个别名,不确定这是否重要,但它有理由抛出异常。但是,接下来的两个“发现”在错误中传达,据我所知/opt/homebrew/bin/gs,它们都是正确的可执行文件。/opt/homebrew/Cellar/ghostscript/9.53.3_1/bin/gs

常识告诉我,如果我使用的是 Windows,我会遇到 64 位与 32 位的问题……但我使用的是我不熟悉的 MacOS。

MacOS -- Apple Silicon M1 -- Python 3.9 -- brew 安装 Ghostscript -- pip 安装 camelot-py -- 通过 Jupiter notebook 尝试

编辑——还应注意 Python 2.7 是 MacBook 附带的基本安装,它建议不要将其删除。which python或者python -- version返回 2.7 版本,而不是我运行的 3.9 版本。

0 投票
0 回答
71 浏览

python - camelot python将行追加到上一行

我正在使用 camelot 从 pdf 文档中提取表格。该表具有日期、描述、贷方、借方和余额字段。描述字段有时有很长的行,延伸到下一行。如果我使用 camelot,它会打印如下所示的行:

我希望表格以这样一种方式出现,即“描述”字段下的行如果延伸到下一行,则组合成一行,例如:

这是我的代码:

我如何实现这一目标?

0 投票
1 回答
76 浏览

pandas - 数据框列分别包含许多换行符 (\n) 及其值。如何也将其分隔为新列和值

使用 camelot 读取 PDF 表时,一些列被连接起来,它们的值也如下所示

我的输出应该如下所示

我希望根据换行符分隔列和值。

您使用以下 df 进行实验创建

数据 = [['12/12/2019', '45333\n34343','7899\nscrewio','89\n0.00','3443.12\n231232.00\n456'], ['12/12/2019 ', '232\n3434','7845\nnuts','78\n0.00','34.12\n232.00\455'] ]

df33 = pd.DataFrame(data, columns = ['Date', 'Facture-ref\nfactureid','Description\nitems','Payé\nEscompte','Déboursé\nPaiement\nnet'])

0 投票
1 回答
508 浏览

python-3.x - 如何使用 camelot 从 PDF 文件中提取表后获取列名?我是新手

简而言之,我正在执行此步骤。

tables[0].df.columns用来从提取的表中获取列名。

但它没有给出列名。