问题标签 [python-camelot]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

2 回答

608 浏览

python - 卡米洛特切换角色

我正在尝试使用 Camelot 解析 PDF 中的表格。单元格中有多行文本，有些单元格有一个空行分隔部分文本：

我希望这被解析为First line\nSecond line\n\nThird line（注意双换行符），但我得到了这个：T\nFirst line\nSecond line\nhird line. 双换行符后的第一个字符移动到文本的开头，而我只得到一个换行符。

我也尝试使用制表符，但是当表中有一个空行时，它会弄乱整个表（实际上是数据框），并且在某些单词的情况下，它会在字符之间放置一个空格。

编辑：

我的主要问题是删除多个换行符。如果我知道空行在哪里，我可以从代码中修复另一个。

python python-camelot

2020-10-12T11:53:22.010

0 投票

1 回答

420 浏览

python-3.x - 使用 camelot 从 pdf 中提取文本时如何剥离 (CID:)

我正在使用 Camelot 从 pdf 中提取文本。pdf 还包含 Camelot 为其打印Cid的中文字符。例如（cid:3634）

我想去掉那些 CID，因为汉字对我没有影响。

我试过这个：

但只删除 CID 帧而不是其中的数字。

请在此处查看示例输出图像请帮助。

2020-10-13T13:41:16.660

0 投票

1 回答

31 浏览

python-3.x - 将图像上传到云端，然后将相应的链接粘贴到相应的数据框

我有带有表格的 PDF 和与表格内容相关的图像图。表格和图像都在一个页面上。

我已经使用 Camelot 库提取了表格。还有使用 Fitz 库的图像。使用 Python

现在我想将这些图像（.png）上传到任何可能的云服务，并将相应图像的 Web 链接提供到相应表的 Dataframe。

请帮忙。

这就是单页 PDF 的外观。

python-3.x pandas dataframe cloud python-camelot

2020-10-16T11:05:22.670

0 投票

1 回答

309 浏览

python-3.x - 如何将 PDF 中的表格解析为非英语语言

我正在使用 Camelot 和 tabula 来解析带有西里尔符号的 pdf 文件。但是在输出的 CSV 文件中，我得到了没有俄语符号的混乱字体。

什么可以帮助我解析非英语语言的 pdf 表？

输出： 0055529-1295-06-UT。 Р“Р§Р§45

python-3.x parsing pdf python-camelot

2020-12-12T20:29:21.940

0 投票

2 回答

1069 浏览

python - Python：AttributeError：模块“camelot”没有属性“read_pdf”

面临以下问题：有人可以帮忙吗？请..

尝试从 PDF 中提取表格数据时获取以下内容。

python python-camelot

2021-01-10T14:44:49.253

0 投票

0 回答

87 浏览

python-camelot - Python - 使用 camelot 翻转文本以从 PDF 中提取表格

我正在使用图书馆 camelot 来阅读 PDF 和提取表格。对于大多数 PDF，它可以完美运行。但对于其他 PDF，文本会被翻转。

有谁知道是什么原因造成的以及如何解决它？

这是 PDF 的链接：https ://drive.google.com/file/d/1Br34gJlx_7VUBmTYCTKXy1502qls44i7/view?usp=sharing

注意：PDF 是希伯来语，应该翻转，但它只发生在这种 PDF 中，还要注意英语和数字也被翻转了，例如HSITIRB应该是BRITISH

python-camelot

2021-01-15T13:47:48.840

0 投票

1 回答

407 浏览

python - Python Camelot / Ghostscript“错误的架构”错误

我遇到了一个错误，超出了我的调试能力。Camelot 对 Ghostscript 的使用似乎找到了错误架构的可执行文件。

采取的步骤：

brew install Ghostscript
检查是否可以找到 Ghostscript 的可执行文件，根据文档，它不能。
添加/opt/homebrew/bin到/opt/homebrew/lib适当的路径（我认为？）
根据 Camelot 的 GitHub 上错误 #282 的解决方法，我更改了camelot/camelot/ext/ghostscript/_gsprint.py Line 256

libgs = ctypes.util.find_library("gs") 至 libgs = distutils.spawn.find_executable("gs")

使用新的（以上）代码再次检查依赖项。成功。/opt/homebrew/bin/gs
python3.9 -m pip install camelot-py
尝试使用 Ghostscript 运行 Camelot。错误如下图。

我应该注意，gsin 位置/opt/homebrew/bin/gs似乎是一个别名，不确定这是否重要，但它有理由抛出异常。但是，接下来的两个“发现”在错误中传达，据我所知/opt/homebrew/bin/gs，它们都是正确的可执行文件。/opt/homebrew/Cellar/ghostscript/9.53.3_1/bin/gs

常识告诉我，如果我使用的是 Windows，我会遇到 64 位与 32 位的问题……但我使用的是我不熟悉的 MacOS。

MacOS -- Apple Silicon M1 -- Python 3.9 -- brew 安装 Ghostscript -- pip 安装 camelot-py -- 通过 Jupiter notebook 尝试

编辑——还应注意 Python 2.7 是 MacBook 附带的基本安装，它建议不要将其删除。which python或者python -- version返回 2.7 版本，而不是我运行的 3.9 版本。

python ctypes ghostscript python-camelot

2021-01-21T00:05:09.773

0 投票

0 回答

71 浏览

python - camelot python将行追加到上一行

我正在使用 camelot 从 pdf 文档中提取表格。该表具有日期、描述、贷方、借方和余额字段。描述字段有时有很长的行，延伸到下一行。如果我使用 camelot，它会打印如下所示的行：

我希望表格以这样一种方式出现，即“描述”字段下的行如果延伸到下一行，则组合成一行，例如：

这是我的代码：

我如何实现这一目标？

python python-camelot

2021-01-27T12:18:50.400

0 投票

1 回答

76 浏览

pandas - 数据框列分别包含许多换行符 (\n) 及其值。如何也将其分隔为新列和值

使用 camelot 读取 PDF 表时，一些列被连接起来，它们的值也如下所示

我的输出应该如下所示

我希望根据换行符分隔列和值。

您使用以下 df 进行实验创建

数据 = [['12/12/2019', '45333\n34343','7899\nscrewio','89\n0.00','3443.12\n231232.00\n456'], ['12/12/2019 ', '232\n3434','7845\nnuts','78\n0.00','34.12\n232.00\455'] ]

df33 = pd.DataFrame(data, columns = ['Date', 'Facture-ref\nfactureid','Description\nitems','Payé\nEscompte','Déboursé\nPaiement\nnet'])

pandas dataframe newline python-camelot

2021-02-07T01:18:59.483

0 投票

1 回答

508 浏览

python-3.x - 如何使用 camelot 从 PDF 文件中提取表后获取列名？我是新手

简而言之，我正在执行此步骤。

我tables[0].df.columns用来从提取的表中获取列名。

但它没有给出列名。

python-3.x python-camelot

2021-02-09T12:37:24.370

1 2 3 4 5 6 7 8 9 10

问题标签 [python-camelot]

Reference