问题标签 [python-camelot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将PDF表格数据转换为csv,现在如何将其存储到数据库中?
我已经使用 Camelot 在我的 Django 项目中将 pdf 表数据转换为 CSV,它会自动存储在我的根目录中。现在我将如何将我的 CSV 数据放入我的 MySQL 数据库中?我已将我的模型创建为 CSV 文件行的名称。任何人都可以帮忙提供想法吗?
python - 什么更好,一次阅读所有页面或在 python-camelot 中逐页阅读?
我将每天在一个简单的数字海洋实例(1 个 vCPU,1GB 内存)上运行 camelot,以从 +-150 页的 PDF 中提取信息并存储在数据库中。什么是最好的做法:
a) 一次阅读所有页面camelot.read_pdf('file.pdf', pages='all', flavor='stream')
?
b) 逐页阅读?
谢谢
python - 使用 python camelot 库打印表格以用于提取表格
有没有办法让提取的 PDF 表格的 sdout 在终端中打印?例子:
python - ModuleNotFoundError:没有名为“camelot”的模块
我想从 pdf 中提取表格,为此我使用了 Camelot。但是每当我尝试导入它时都会收到此错误:
我尝试使用以下方法安装 camelot:
和
但我一次又一次地遇到同样的错误。我该如何删除这个?您的帮助将不胜感激!
python - 如何阻止 camelot-py 将单个单元格中的多行文本拆分为多个单元格?
我正在尝试构建一个应用程序来读取任意 PDF 并从中提取表格,并且我正在使用Camelot来提取表格。这适用于单元格具有单行值的表格。但是,对于具有多行值的单元格的表格,Camelot 将单个单元格中的多行文本拆分为多个单元格。由于 Camelot 是建立在 pdfminer 之上的,我尝试调整布局分析参数(特别是line_margin)以使 Camelot 不会拆分行。但是,问题仍然存在。
我可以调整哪些其他参数来处理这个问题?这是有此问题的表的示例。
我不想使用“格子”风格,因为我希望看到的大多数表格都没有分界线。
python - 如何使用camelot从pdf中提取表格?
我想在 python 3 中使用 camelot 从 pdf 中提取所有表格。
然后我从pdf的第一页只得到一张桌子。如何从pdf文件中提取整个表格?
python - 将 camelot 导入 python 时没有名为 cv2 的模块
成功安装 python 和 miniconda 并导入 pandas 后尝试在 Macbook Pro OS 10.13.6 上导入 camelot。其他所有东西似乎都可以安装和工作,但是在导入 camelot 时收到错误:
我看到我想知道的一个参数是 Darwin 参数,因为我在 Anaconda.sh 安装程序中看到,它会检查配置,如果它等于“Darwin”配置但不会安装,但 miniconda 没有那个检查。miniconda 有同样的限制吗?是否有我需要的解决方法,以便它甚至可以与 Jupiter notebook 一起使用?目前,当我将 camelot 导入 Jupiter 笔记本时,Jupiter 笔记本上发生了完全相同的 cv2 错误。我认为这些 python 工具存在于 Jupiter notebook 平台上,所以我并不需要它们全部在本地。
python - 是否可以使用 camelot 仅从 pdf 中提取表格?它应该只检测表格而不是文本
目前我使用这个逻辑,但它使用文本理论获取所有内容。