问题标签 [python-camelot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
124 浏览

python - 如何将PDF表格数据插入数据库

我已经使用 Camelot 提取了 pdf 表格数据,但现在我怎样才能将表格数据放入我的数据库中,就像我需要将其转换为 CSV 一样?有没有其他方法可以将它放入我的数据库中?有没有其他方法可以选择我的特定表格或只是输入表格的数量。因为在这里我需要指定我的表号。被提取。

下面是我想将值放入我的数据库的 pdf 中的表数据

在此处输入图像描述

0 投票
2 回答
4724 浏览

python - tabula vs camelot 用于从 PDF 中提取表格

我需要从 pdf 中提取表格,这些表格可以是任何类型,多个标题、垂直标题、水平标题等。

我已经实现了两者的基本用例,发现 tabula 比 camelot 做得好一点,但仍然无法完美地检测所有表,我不确定它是否适用于所有类型。

因此,寻求实施过类似用例的专家的建议。

示例 PDF:PDF1 PDF2 PDF3

表格实施:

卡米洛特实施:

0 投票
0 回答
47 浏览

python - 将PDF表格数据转换为csv,现在如何将其存储到数据库中?

我已经使用 Camelot 在我的 Django 项目中将 pdf 表数据转换为 CSV,它会自动存储在我的根目录中。现在我将如何将我的 CSV 数据放入我的 MySQL 数据库中?我已将我的模型创建为 CSV 文件行的名称。任何人都可以帮忙提供想法吗?

0 投票
1 回答
995 浏览

python - 什么更好,一次阅读所有页面或在 python-camelot 中逐页阅读?

我将每天在一个简单的数字海洋实例(1 个 vCPU,1GB 内存)上运行 camelot,以从 +-150 页的 PDF 中提取信息并存储在数据库中。什么是最好的做法:

a) 一次阅读所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')

b) 逐页阅读?

谢谢

0 投票
0 回答
288 浏览

python - 使用 python camelot 库打印表格以用于提取表格

有没有办法让提取的 PDF 表格的 sdout 在终端中打印?例子:

0 投票
3 回答
4029 浏览

python - ModuleNotFoundError:没有名为“camelot”的模块

我想从 pdf 中提取表格,为此我使用了 Camelot。但是每当我尝试导入它时都会收到此错误:

我尝试使用以下方法安装 camelot:

但我一次又一次地遇到同样的错误。我该如何删除这个?您的帮助将不胜感激!

0 投票
1 回答
619 浏览

python - 如何阻止 camelot-py 将单个单元格中的多行文本拆分为多个单元格?

我正在尝试构建一个应用程序来读取任意 PDF 并从中提取表格,并且我正在使用Camelot来提取表格。这适用于单元格具有单行值的表格。但是,对于具有多行值的单元格的表格,Camelot 将单个单元格中的多行文本拆分为多个单元格。由于 Camelot 是建立在 pdfminer 之上的,我尝试调整布局分析参数(特别是line_margin)以使 Camelot 不会拆分行。但是,问题仍然存在。

我可以调整哪些其他参数来处理这个问题?这是有此问题的表的示例。 在此处输入图像描述

我不想使用“格子”风格,因为我希望看到的大多数表格都没有分界线。

0 投票
2 回答
1190 浏览

python - 如何使用camelot从pdf中提取表格?

我想在 python 3 中使用 camelot 从 pdf 中提取所有表格。

然后我从pdf的第一页只得到一张桌子。如何从pdf文件中提取整个表格?

0 投票
0 回答
278 浏览

python - 将 camelot 导入 python 时没有名为 cv2 的模块

成功安装 python 和 miniconda 并导入 pandas 后尝试在 Macbook Pro OS 10.13.6 上导入 camelot。其他所有东西似乎都可以安装和工作,但是在导入 camelot 时收到错误:

我看到我想知道的一个参数是 Darwin 参数,因为我在 Anaconda.sh 安装程序中看到,它会检查配置,如果它等于“Darwin”配置但不会安装,但 miniconda 没有那个检查。miniconda 有同样的限制吗?是否有我需要的解决方法,以便它甚至可以与 Jupiter notebook 一起使用?目前,当我将 camelot 导入 Jupiter 笔记本时,Jupiter 笔记本上发生了完全相同的 cv2 错误。我认为这些 python 工具存在于 Jupiter notebook 平台上,所以我并不需要它们全部在本地。

0 投票
0 回答
396 浏览

python - 是否可以使用 camelot 仅从 pdf 中提取表格?它应该只检测表格而不是文本

目前我使用这个逻辑,但它使用文本理论获取所有内容。