问题标签 [python-camelot]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

1 回答

856 浏览

python-camelot - 如何使用 tabula_py 或 camelot 读取分布在多个页面上的表格

我正在使用 tabula_py 读取 pdf 上的表格。有些很大。我有很多情况下，表格不止一页。Isuue 是 tabula_py 将每一页视为新表，而不是作为一个大表读取。与 Camelot 相同的问题

python-camelot tabula-py

2020-06-12T18:18:36.297

0 投票

0 回答

438 浏览

python - 如何解决 camelot-py read_pdf 错误“找不到 EOF 标记”？

我正在根据需要使用基于文本的 pdf，并尝试使用 flavor='stream' 选项从中读取表格。当我运行 python 脚本时，会出现此错误：

现在，我知道这意味着 End-Of-File 标记，但我没有生成我要解析的 pdf，如果源有问题，那将非常不方便，因为它们都是以相同的方式制作的。

我用来阅读的代码行是这样的：

最后一行是在命令行中显示表格

python python-camelot

2020-06-14T23:21:14.087

0 投票

0 回答

121 浏览

python-3.x - 在使用 python 将带有粗体行的表提取到 pandas 数据框时需要帮助

我有一些 pdf，我们有不同的表格，在表格中，我们有几行粗体。有没有办法使用 tabula 或 Camelot 将粗体字体的行提取为粗体行，并将剩余的行作为普通字体提取到 pandas 的数据框？

python-3.x tabula python-camelot

2020-06-16T17:58:16.940

0 投票

0 回答

218 浏览

python - 在 Python 中导入 camelot 显示 Relink 错误和分段错误

我一直在使用 camelot 从 pdf 文件中提取表格，并且代码在我的本地设置中运行良好。但是当我在 DigitalOcean 液滴中运行相同的代码时，导入 camelot 后会出现此错误

我尝试重新安装 camelot，甚至安装了 libsystemd-dev 和 libudev，但仍然出现错误。请帮忙

python python-camelot

2020-07-28T07:19:15.763

0 投票

2 回答

461 浏览

python - 如何在 cx_freeze 中包含 Ghostscript

有没有办法Ghostscript包含cx_freeze在virtualenv

我已经尝试过了，pip install python3_ghostscript-0.5.0-py3-none-any.whl但仍然低于错误

从此链接下载了 .whl 文件 - https://pypi.python.org/packages/6a/2d/e2d7474bea24d223d5dc86d51241fd305b75a9168f2e1d7ee07b883c80a5/python3_ghostscript-0.5.0-py3-none-any.whl#md5=0e63a24a3801ead992720874c

错误：RuntimeError: Please make sure that Ghostscript is installed

在我的 Windows 系统中安装 Ghostscript 不会解决问题，因为我需要将它包含在我的构建中，cx_freeze以便非 python 安装的系统可以使用我构建的桌面应用程序Tkinter

基本上我camelot用来将pdf表格转换为excel，但它需要Ghostscript

任何替代解决方案都非常受欢迎！

提前致谢！

python virtualenv cx-freeze python-camelot

2020-07-30T06:45:53.090

0 投票

1 回答

72 浏览

python - 尝试除了 IndexError - 我没有得到想要的结果

我正在尝试阅读 PDF 文件并将它们转换为 Python 中的干净数据框。我遍历所有相关页面，并希望逐步附加数据框以获得包含所有信息的大表。

第 32-33 页需要与其他页面稍有不同的处理（否则会引发 IndexError）。我试图通过使用 try-except 来解决这个问题。但是，运行代码后，生成的数据帧 ledig['2000'] 中缺少第 32-33 页的信息。

我试图单独执行 except 块中的代码并且它可以工作（如果我只阅读 pp.32-33）。

有任何想法吗？

当我第一次使用 try-except 时，我当然有可能以某种方式误解了这个概念。

我的代码：

python try-except index-error python-camelot

2020-07-31T15:50:40.243

0 投票

0 回答

239 浏览

python - 将 pdf 转换为 excel（使用 Camelot 获取特定表格）

我正在使用 camelot 阅读 pdf 并打印出表格，但它似乎没有按预期读取表格。我使用来自网站的 pdf 到 excel 转换器并得到了我预期的结果，所以我假设表格存在。我还突出显示了 pdf，并注意到文本以表格格式排列。我要看看其他可能性，但似乎我可以用 Camelo 挑选特定的桌子，这非常适合我想做的事情。我的问题是为什么会出现这种情况，以及是否还有其他方法可以做到这一点。谢谢你

我试过了：

结果得到了这个：

所以，我试过这个：

并得到 0。

预期的结果应该是这样的：

python python-3.x excel pdf python-camelot

2020-08-04T20:05:47.910

0 投票

2 回答

893 浏览

python - Python Camelot PDF - 在 Windows 上使用 Stream 风格时出现 UnicodeEncodeError

Windows 10 上的 Python 3.7。Camelot 0.8.2

我正在使用以下代码将 pdf 文件转换为 HTML：

tables.export我在该行收到以下错误：

“UnicodeEncodeError -'charmap' 编解码器无法在位置 y 编码字符 '\u2010'：字符映射到未定义。

此代码在 Mac 上运行没有问题。此错误似乎与 Windows 有关，这是我需要在其上运行它的环境。

我现在花了整整两天时间研究这个令人作呕的错误- 我已经尝试了 Stack Overflow 上与此相关的几篇文章中提供的许多解决方案。错误仍然存在。添加所有解决方案中建议的代码行的问题在于，它们都是要添加到普通 Python 方法的参数。这些参数不适用于 Camelot 的export方法。

编辑 1：更新帖子以指定哪一行引发错误。

编辑 2：使用的 PDF 文件： http: //tsbde.texas.gov/78i8ljhbj/Fiscal-Year-2014-Disciplinary-Actions.pdf

编辑 3：这是来自 Windows 控制台的完整回溯：

python character-encoding python-camelot

2020-08-13T21:43:04.147

0 投票

1 回答

614 浏览

python - 如何使用python在pdf文件中查找发票表的区域坐标？

如何使用python在pdf文件中查找发票表的区域坐标？我目前正在使用 camelot 或 tabula 从 pdf 文件中提取表格。但是我想知道是否有办法提取每个表格的区域坐标，以便我可以相应地自定义

python extract invoice tabula python-camelot

2020-08-28T08:49:44.250

0 投票

1 回答

191 浏览

python - Python camelot 库的无边界 pdf 提取到 json 无法正常工作

谁能给我快速回答/帮助，因为我们在使用 python camelot 将 pdf 提取到 json 后面临一些问题，但没有给出确切的内容。提取后缺少某些内容。

python pdf-extraction python-camelot

2020-09-24T10:57:50.380

1 2 3 4 5 6 7 8 9 10

问题标签 [python-camelot]

Reference