问题标签 [python-camelot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 卡米洛特切换角色
我正在尝试使用 Camelot 解析 PDF 中的表格。单元格中有多行文本,有些单元格有一个空行分隔部分文本:
我希望这被解析为First line\nSecond line\n\nThird line
(注意双换行符),但我得到了这个:T\nFirst line\nSecond line\nhird line
. 双换行符后的第一个字符移动到文本的开头,而我只得到一个换行符。
我也尝试使用制表符,但是当表中有一个空行时,它会弄乱整个表(实际上是数据框),并且在某些单词的情况下,它会在字符之间放置一个空格。
编辑:
我的主要问题是删除多个换行符。如果我知道空行在哪里,我可以从代码中修复另一个。
python-3.x - 使用 camelot 从 pdf 中提取文本时如何剥离 (CID:)
我正在使用 Camelot 从 pdf 中提取文本。pdf 还包含 Camelot 为其打印Cid的中文字符。例如(cid:3634)
我想去掉那些 CID,因为汉字对我没有影响。
我试过这个:
但只删除 CID 帧而不是其中的数字。
请在此处查看示例输出图像 请帮助。
python-3.x - 将图像上传到云端,然后将相应的链接粘贴到相应的数据框
我有带有表格的 PDF 和与表格内容相关的图像图。表格和图像都在一个页面上。
我已经使用 Camelot 库提取了表格。还有使用 Fitz 库的图像。使用 Python
现在我想将这些图像(.png)上传到任何可能的云服务,并将相应图像的 Web 链接提供到相应表的 Dataframe。
请帮忙。
python-3.x - 如何将 PDF 中的表格解析为非英语语言
我正在使用 Camelot 和 tabula 来解析带有西里尔符号的 pdf 文件。但是在输出的 CSV 文件中,我得到了没有俄语符号的混乱字体。
什么可以帮助我解析非英语语言的 pdf 表?
输出: 0055529-1295-06-UT。 ГЧЧ45
python - Python:AttributeError:模块“camelot”没有属性“read_pdf”
面临以下问题:有人可以帮忙吗?请..
尝试从 PDF 中提取表格数据时获取以下内容。
python-camelot - Python - 使用 camelot 翻转文本以从 PDF 中提取表格
我正在使用图书馆 camelot 来阅读 PDF 和提取表格。对于大多数 PDF,它可以完美运行。但对于其他 PDF,文本会被翻转。
有谁知道是什么原因造成的以及如何解决它?
这是 PDF 的链接:https ://drive.google.com/file/d/1Br34gJlx_7VUBmTYCTKXy1502qls44i7/view?usp=sharing
注意:PDF 是希伯来语,应该翻转,但它只发生在这种 PDF 中,还要注意英语和数字也被翻转了,例如HSITIRB
应该是BRITISH
python - Python Camelot / Ghostscript“错误的架构”错误
我遇到了一个错误,超出了我的调试能力。Camelot 对 Ghostscript 的使用似乎找到了错误架构的可执行文件。
采取的步骤:
brew install Ghostscript
- 检查是否可以找到 Ghostscript 的可执行文件,根据文档,它不能。
- 添加
/opt/homebrew/bin
到/opt/homebrew/lib
适当的路径(我认为?) - 根据 Camelot 的 GitHub 上错误 #282 的解决方法,我更改了
camelot/camelot/ext/ghostscript/_gsprint.py Line 256
libgs = ctypes.util.find_library("gs")
至
libgs = distutils.spawn.find_executable("gs")
- 使用新的(以上)代码再次检查依赖项。成功。
/opt/homebrew/bin/gs
python3.9 -m pip install camelot-py
- 尝试使用 Ghostscript 运行 Camelot。错误如下图。
我应该注意,gs
in 位置/opt/homebrew/bin/gs
似乎是一个别名,不确定这是否重要,但它有理由抛出异常。但是,接下来的两个“发现”在错误中传达,据我所知/opt/homebrew/bin/gs
,它们都是正确的可执行文件。/opt/homebrew/Cellar/ghostscript/9.53.3_1/bin/gs
常识告诉我,如果我使用的是 Windows,我会遇到 64 位与 32 位的问题……但我使用的是我不熟悉的 MacOS。
MacOS -- Apple Silicon M1 -- Python 3.9 -- brew 安装 Ghostscript -- pip 安装 camelot-py -- 通过 Jupiter notebook 尝试
编辑——还应注意 Python 2.7 是 MacBook 附带的基本安装,它建议不要将其删除。which python
或者python -- version
返回 2.7 版本,而不是我运行的 3.9 版本。
python - camelot python将行追加到上一行
我正在使用 camelot 从 pdf 文档中提取表格。该表具有日期、描述、贷方、借方和余额字段。描述字段有时有很长的行,延伸到下一行。如果我使用 camelot,它会打印如下所示的行:
我希望表格以这样一种方式出现,即“描述”字段下的行如果延伸到下一行,则组合成一行,例如:
这是我的代码:
我如何实现这一目标?
pandas - 数据框列分别包含许多换行符 (\n) 及其值。如何也将其分隔为新列和值
使用 camelot 读取 PDF 表时,一些列被连接起来,它们的值也如下所示
我的输出应该如下所示
我希望根据换行符分隔列和值。
您使用以下 df 进行实验创建
数据 = [['12/12/2019', '45333\n34343','7899\nscrewio','89\n0.00','3443.12\n231232.00\n456'], ['12/12/2019 ', '232\n3434','7845\nnuts','78\n0.00','34.12\n232.00\455'] ]
df33 = pd.DataFrame(data, columns = ['Date', 'Facture-ref\nfactureid','Description\nitems','Payé\nEscompte','Déboursé\nPaiement\nnet'])
python-3.x - 如何使用 camelot 从 PDF 文件中提取表后获取列名?我是新手
简而言之,我正在执行此步骤。
我tables[0].df.columns
用来从提取的表中获取列名。
但它没有给出列名。