问题标签 [python-camelot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-camelot - 如何使用 tabula_py 或 camelot 读取分布在多个页面上的表格
我正在使用 tabula_py 读取 pdf 上的表格。有些很大。我有很多情况下,表格不止一页。Isuue 是 tabula_py 将每一页视为新表,而不是作为一个大表读取。与 Camelot 相同的问题
python - 如何解决 camelot-py read_pdf 错误“找不到 EOF 标记”?
我正在根据需要使用基于文本的 pdf,并尝试使用 flavor='stream' 选项从中读取表格。当我运行 python 脚本时,会出现此错误:
现在,我知道这意味着 End-Of-File 标记,但我没有生成我要解析的 pdf,如果源有问题,那将非常不方便,因为它们都是以相同的方式制作的。
我用来阅读的代码行是这样的:
最后一行是在命令行中显示表格
python-3.x - 在使用 python 将带有粗体行的表提取到 pandas 数据框时需要帮助
我有一些 pdf,我们有不同的表格,在表格中,我们有几行粗体。有没有办法使用 tabula 或 Camelot 将粗体字体的行提取为粗体行,并将剩余的行作为普通字体提取到 pandas 的数据框?
python - 在 Python 中导入 camelot 显示 Relink 错误和分段错误
我一直在使用 camelot 从 pdf 文件中提取表格,并且代码在我的本地设置中运行良好。但是当我在 DigitalOcean 液滴中运行相同的代码时,导入 camelot 后会出现此错误
我尝试重新安装 camelot,甚至安装了 libsystemd-dev 和 libudev,但仍然出现错误。请帮忙
python - 如何在 cx_freeze 中包含 Ghostscript
有没有办法Ghostscript
包含cx_freeze
在virtualenv
我已经尝试过了,pip install python3_ghostscript-0.5.0-py3-none-any.whl
但仍然低于错误
错误:RuntimeError: Please make sure that Ghostscript is installed
在我的 Windows 系统中安装 Ghostscript 不会解决问题,因为我需要将它包含在我的构建中,cx_freeze
以便非 python 安装的系统可以使用我构建的桌面应用程序Tkinter
基本上我camelot
用来将pdf表格转换为excel,但它需要Ghostscript
任何替代解决方案都非常受欢迎!
提前致谢!
python - 尝试除了 IndexError - 我没有得到想要的结果
我正在尝试阅读 PDF 文件并将它们转换为 Python 中的干净数据框。我遍历所有相关页面,并希望逐步附加数据框以获得包含所有信息的大表。
第 32-33 页需要与其他页面稍有不同的处理(否则会引发 IndexError)。我试图通过使用 try-except 来解决这个问题。但是,运行代码后,生成的数据帧 ledig['2000'] 中缺少第 32-33 页的信息。
我试图单独执行 except 块中的代码并且它可以工作(如果我只阅读 pp.32-33)。
有任何想法吗?
当我第一次使用 try-except 时,我当然有可能以某种方式误解了这个概念。
我的代码:
python - 将 pdf 转换为 excel(使用 Camelot 获取特定表格)
我正在使用 camelot 阅读 pdf 并打印出表格,但它似乎没有按预期读取表格。我使用来自网站的 pdf 到 excel 转换器并得到了我预期的结果,所以我假设表格存在。我还突出显示了 pdf,并注意到文本以表格格式排列。我要看看其他可能性,但似乎我可以用 Camelo 挑选特定的桌子,这非常适合我想做的事情。我的问题是为什么会出现这种情况,以及是否还有其他方法可以做到这一点。谢谢你
我试过了:
结果得到了这个:
所以,我试过这个:
并得到 0。
预期的结果应该是这样的:
python - Python Camelot PDF - 在 Windows 上使用 Stream 风格时出现 UnicodeEncodeError
Windows 10 上的 Python 3.7。Camelot 0.8.2
我正在使用以下代码将 pdf 文件转换为 HTML:
tables.export
我在该行收到以下错误:
“UnicodeEncodeError -'charmap' 编解码器无法在位置 y 编码字符 '\u2010':字符映射到未定义。
此代码在 Mac 上运行没有问题。此错误似乎与 Windows 有关,这是我需要在其上运行它的环境。
我现在花了整整两天时间研究这个令人作呕的错误- 我已经尝试了 Stack Overflow 上与此相关的几篇文章中提供的许多解决方案。错误仍然存在。添加所有解决方案中建议的代码行的问题在于,它们都是要添加到普通 Python 方法的参数。这些参数不适用于 Camelot 的export
方法。
编辑 1:更新帖子以指定哪一行引发错误。
编辑 2:使用的 PDF 文件: http: //tsbde.texas.gov/78i8ljhbj/Fiscal-Year-2014-Disciplinary-Actions.pdf
编辑 3:这是来自 Windows 控制台的完整回溯:
python - 如何使用python在pdf文件中查找发票表的区域坐标?
如何使用python在pdf文件中查找发票表的区域坐标?我目前正在使用 camelot 或 tabula 从 pdf 文件中提取表格。但是我想知道是否有办法提取每个表格的区域坐标,以便我可以相应地自定义
python - Python camelot 库的无边界 pdf 提取到 json 无法正常工作
谁能给我快速回答/帮助,因为我们在使用 python camelot 将 pdf 提取到 json 后面临一些问题,但没有给出确切的内容。提取后缺少某些内容。