问题标签 [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
856 浏览

python-camelot - 如何使用 tabula_py 或 camelot 读取分布在多个页面上的表格

我正在使用 tabula_py 读取 pdf 上的表格。有些很大。我有很多情况下,表格不止一页。Isuue 是 tabula_py 将每一页视为新表,而不是作为一个大表读取。与 Camelot 相同的问题

0 投票
0 回答
438 浏览

python - 如何解决 camelot-py read_pdf 错误“找不到 EOF 标记”?

我正在根据需要使用基于文本的 pdf,并尝试使用 flavor='stream' 选项从中读取表格。当我运行 python 脚本时,会出现此错误:

现在,我知道这意味着 End-Of-File 标记,但我没有生成我要解析的 pdf,如果源有问题,那将非常不方便,因为它们都是以相同的方式制作的。

我用来阅读的代码行是这样的:

最后一行是在命令行中显示表格

0 投票
0 回答
121 浏览

python-3.x - 在使用 python 将带有粗体行的表提取到 pandas 数据框时需要帮助

我有一些 pdf,我们有不同的表格,在表格中,我们有几行粗体。有没有办法使用 tabula 或 Camelot 将粗体字体的行提取为粗体行,并将剩余的行作为普通字体提取到 pandas 的数据框?

0 投票
0 回答
218 浏览

python - 在 Python 中导入 camelot 显示 Relink 错误和分段错误

我一直在使用 camelot 从 pdf 文件中提取表格,并且代码在我的本地设置中运行良好。但是当我在 DigitalOcean 液滴中运行相同的代码时,导入 camelot 后会出现此错误

我尝试重新安装 camelot,甚至安装了 libsystemd-dev 和 libudev,但仍然出现错误。请帮忙

0 投票
2 回答
461 浏览

python - 如何在 cx_freeze 中包含 Ghostscript

有没有办法Ghostscript包含cx_freezevirtualenv

我已经尝试过了,pip install python3_ghostscript-0.5.0-py3-none-any.whl但仍然低于错误

从此链接下载了 .whl 文件 - https://pypi.python.org/packages/6a/2d/e2d7474bea24d223d5dc86d51241fd305b75a9168f2e1d7ee07b883c80a5/python3_ghostscript-0.5.0-py3-none-any.whl#md5=0e63a24a3801ead992720874c

错误:RuntimeError: Please make sure that Ghostscript is installed

在我的 Windows 系统中安装 Ghostscript 不会解决问题,因为我需要将它包含在我的构建中,cx_freeze以便非 python 安装的系统可以使用我构建的桌面应用程序Tkinter

基本上我camelot用来将pdf表格转换为excel,但它需要Ghostscript

任何替代解决方案都非常受欢迎!

提前致谢!

0 投票
1 回答
72 浏览

python - 尝试除了 IndexError - 我没有得到想要的结果

我正在尝试阅读 PDF 文件并将它们转换为 Python 中的干净数据框。我遍历所有相关页面,并希望逐步附加数据框以获得包含所有信息的大表。

第 32-33 页需要与其他页面稍有不同的处理(否则会引发 IndexError)。我试图通过使用 try-except 来解决这个问题。但是,运行代码后,生成的数据帧 ledig['2000'] 中缺少第 32-33 页的信息。

我试图单独执行 except 块中的代码并且它可以工作(如果我只阅读 pp.32-33)。

有任何想法吗?

当我第一次使用 try-except 时,我当然有可能以某种方式误解了这个概念。

我的代码:

0 投票
0 回答
239 浏览

python - 将 pdf 转换为 excel(使用 Camelot 获取特定表格)

我正在使用 camelot 阅读 pdf 并打印出表格,但它似乎没有按预期读取表格。我使用来自网站的 pdf 到 excel 转换器并得到了我预期的结果,所以我假设表格存在。我还突出显示了 pdf,并注意到文本以表格格式排列。我要看看其他可能性,但似乎我可以用 Camelo 挑选特定的桌子,这非常适合我想做的事情。我的问题是为什么会出现这种情况,以及是否还有其他方法可以做到这一点。谢谢你

我试过了:

结果得到了这个:

所以,我试过这个:

并得到 0。

预期的结果应该是这样的:

0 投票
2 回答
893 浏览

python - Python Camelot PDF - 在 Windows 上使用 Stream 风格时出现 UnicodeEncodeError

Windows 10 上的 Python 3.7。Camelot 0.8.2

我正在使用以下代码将 pdf 文件转换为 HTML:

tables.export我在该行收到以下错误:

“UnicodeEncodeError -'charmap' 编解码器无法在位置 y 编码字符 '\u2010':字符映射到未定义。

此代码在 Mac 上运行没有问题。此错误似乎与 Windows 有关,这是我需要在其上运行它的环境。

我现在花了整整两天时间研究这个令人作呕的错误- 我已经尝试了 Stack Overflow 上与此相关的几篇文章中提供的许多解决方案。错误仍然存​​在。添加所有解决方案中建议的代码行的问题在于,它们都是要添加到普通 Python 方法的参数。这些参数不适用于 Camelot 的export方法。

编辑 1:更新帖子以指定哪一行引发错误。

编辑 2:使用的 PDF 文件: http: //tsbde.texas.gov/78i8ljhbj/Fiscal-Year-2014-Disciplinary-Actions.pdf

编辑 3:这是来自 Windows 控制台的完整回溯:

0 投票
1 回答
614 浏览

python - 如何使用python在pdf文件中查找发票表的区域坐标?

如何使用python在pdf文件中查找发票表的区域坐标?我目前正在使用 camelot 或 tabula 从 pdf 文件中提取表格。但是我想知道是否有办法提取每个表格的区域坐标,以便我可以相应地自定义

0 投票
1 回答
191 浏览

python - Python camelot 库的无边界 pdf 提取到 json 无法正常工作

谁能给我快速回答/帮助,因为我们在使用 python camelot 将 pdf 提取到 json 后面临一些问题,但没有给出确切的内容。提取后缺少某些内容。