问题标签 [python-camelot]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

0 回答

124 浏览

python - 如何将PDF表格数据插入数据库

我已经使用 Camelot 提取了 pdf 表格数据，但现在我怎样才能将表格数据放入我的数据库中，就像我需要将其转换为 CSV 一样？有没有其他方法可以将它放入我的数据库中？有没有其他方法可以选择我的特定表格或只是输入表格的数量。因为在这里我需要指定我的表号。被提取。

下面是我想将值放入我的数据库的 pdf 中的表数据

2020-04-15T20:26:10.887

0 投票

2 回答

4724 浏览

python - tabula vs camelot 用于从 PDF 中提取表格

我需要从 pdf 中提取表格，这些表格可以是任何类型，多个标题、垂直标题、水平标题等。

我已经实现了两者的基本用例，发现 tabula 比 camelot 做得好一点，但仍然无法完美地检测所有表，我不确定它是否适用于所有类型。

因此，寻求实施过类似用例的专家的建议。

示例 PDF：PDF1 PDF2 PDF3

表格实施：

卡米洛特实施：

python pdf tabula python-camelot

2020-04-23T12:32:07.890

0 投票

0 回答

47 浏览

python - 将PDF表格数据转换为csv，现在如何将其存储到数据库中？

我已经使用 Camelot 在我的 Django 项目中将 pdf 表数据转换为 CSV，它会自动存储在我的根目录中。现在我将如何将我的 CSV 数据放入我的 MySQL 数据库中？我已将我的模型创建为 CSV 文件行的名称。任何人都可以帮忙提供想法吗？

python django csv data-extraction python-camelot

2020-04-28T14:37:43.950

0 投票

1 回答

995 浏览

python - 什么更好，一次阅读所有页面或在 python-camelot 中逐页阅读？

我将每天在一个简单的数字海洋实例（1 个 vCPU，1GB 内存）上运行 camelot，以从 +-150 页的 PDF 中提取信息并存储在数据库中。什么是最好的做法：

a) 一次阅读所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')？

b) 逐页阅读？

谢谢

python python-camelot

2020-04-28T20:56:27.233

0 投票

0 回答

288 浏览

python - 使用 python camelot 库打印表格以用于提取表格

有没有办法让提取的 PDF 表格的 sdout 在终端中打印？例子：

python python-3.x python-camelot

2020-05-03T19:35:38.763

0 投票

3 回答

4029 浏览

python - ModuleNotFoundError：没有名为“camelot”的模块

我想从 pdf 中提取表格，为此我使用了 Camelot。但是每当我尝试导入它时都会收到此错误：

我尝试使用以下方法安装 camelot：

和

但我一次又一次地遇到同样的错误。我该如何删除这个？您的帮助将不胜感激！

python pip python-camelot

2020-05-05T15:06:14.810

0 投票

1 回答

619 浏览

python - 如何阻止 camelot-py 将单个单元格中的多行文本拆分为多个单元格？

我正在尝试构建一个应用程序来读取任意 PDF 并从中提取表格，并且我正在使用Camelot来提取表格。这适用于单元格具有单行值的表格。但是，对于具有多行值的单元格的表格，Camelot 将单个单元格中的多行文本拆分为多个单元格。由于 Camelot 是建立在 pdfminer 之上的，我尝试调整布局分析参数（特别是line_margin）以使 Camelot 不会拆分行。但是，问题仍然存在。

我可以调整哪些其他参数来处理这个问题？这是有此问题的表的示例。

我不想使用“格子”风格，因为我希望看到的大多数表格都没有分界线。

python python-camelot

2020-05-10T07:51:39.963

0 投票

2 回答

1190 浏览

python - 如何使用camelot从pdf中提取表格？

我想在 python 3 中使用 camelot 从 pdf 中提取所有表格。

然后我从pdf的第一页只得到一张桌子。如何从pdf文件中提取整个表格？

python csv pdf python-camelot

2020-05-27T13:39:53.780

0 投票

0 回答

278 浏览

python - 将 camelot 导入 python 时没有名为 cv2 的模块

成功安装 python 和 miniconda 并导入 pandas 后尝试在 Macbook Pro OS 10.13.6 上导入 camelot。其他所有东西似乎都可以安装和工作，但是在导入 camelot 时收到错误：

我看到我想知道的一个参数是 Darwin 参数，因为我在 Anaconda.sh 安装程序中看到，它会检查配置，如果它等于“Darwin”配置但不会安装，但 miniconda 没有那个检查。miniconda 有同样的限制吗？是否有我需要的解决方法，以便它甚至可以与 Jupiter notebook 一起使用？目前，当我将 camelot 导入 Jupiter 笔记本时，Jupiter 笔记本上发生了完全相同的 cv2 错误。我认为这些 python 工具存在于 Jupiter notebook 平台上，所以我并不需要它们全部在本地。

python pandas cv2 miniconda python-camelot

2020-06-02T23:35:59.407

0 投票

0 回答

396 浏览

python - 是否可以使用 camelot 仅从 pdf 中提取表格？它应该只检测表格而不是文本

目前我使用这个逻辑，但它使用文本理论获取所有内容。

python tabula python-camelot

2020-06-09T08:45:12.457

1 2 3 4 5 6 7 8 9 10

问题标签 [python-camelot]

Reference