问题标签 [tabula-py]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 使用 Python 在多个 PDF 文件中查找日期模式
我在 Jupyter Notebook 中导入多个 PDF 文件。我想知道如何获取日期,因为每个导入的 PDF 文件的排列方式都不同。示例:第 1 号 PDF 的日期在第 3 列,第 2 号 PDF 的日期在第 5 列。我知道日期为 DD/MM/YYYY。如何从日期模式中获取日期?
python - Tabula-py 不读取文件的全部数据
我试图使用 tabularead_pdf()
方法从 PDF 文件中读取表格。但它不是阅读完整的表格。它在表格的某些行上丢失了。我正在尝试以下给定的代码:
这是运行上述代码时的输出:
以及来自 PDF 文件的实际数据
python - 将对象列表到 DataFrame | 制表符 | read_pdf_with_template
问题陈述:
我正在使用Tabula App用户界面从 PDF 文件中选择表格的维度作为表格模板,以提供JSON格式的维度。
选择表格维度后提取表格的 Tabula App 界面中的 DataFrame 是正确的。
但是,当我使用read_pdf_with_template
返回List对象的方法时。当我将此列表对象转换为 DataFrame 时,它会合并不同的列。
代码片段:
数据框
Tabula App界面中的DataFrame :
使用方法返回列表然后将其转换为DataFrame后的DataFrameread_pdf_with_template
注意:请忽略此问题中的列标题。
python - 隐蔽列表到 DataFrame | 表格-py | read_pdf_with_template()
问题陈述:
我正在使用Tabula App用户界面从 PDF 文件中选择表格的维度作为表格模板,以提供JSON格式的维度。
选择表格维度后提取表格的 Tabula App 界面中的 DataFrame 是正确的。
但是,当我使用read_pdf_with_template()
返回List对象的方法时。当我将此列表对象转换为 DataFrame 时,它会合并不同的列。
代码片段:
- 使用
read_pdf_with_template()
方法后。
file
是PDF文件。tabula_saved.json
是使用 Tabula 应用界面创建的 PDF 文件的 JSON 维度模板。
输出:
- 尝试使用以下代码转换为DataFrame后
输出:
在Tabula App Interface中提取的DataFrame是正确的。
注意:请忽略此问题中的列标题。
python - Tabula-py 根据条件拆分行
我有一个如下所示的 csv,我想根据标题 2 和 3 拆分行,我该如何在 tabula-py 中做到这一点?
下面是我在从 pdf 转换为 csv 时使用的代码,然后我在 html 表中显示它
我不知道如何在 python tabula 中执行此操作
python - 连接表列表中的列
我已经使用以下代码刮掉了这个PDFTabula
,并创建了一个 (1410) 表列表:multiple_tables=True
示例第一个表:
问题
如何首先连接(一个在另一个之上)每个表中的三列以获得一个单列,然后将 1410 个表连接成一个表?
我设法遍历表列表并打印一列,但我不能将结果放入数据帧中:
我试过这个:
python - 无法使用 tabula-py 捕获表数据
无法完全提取 MBLHA10B\rGHH4258\r3,正如我们只能从 BLHA10B\rGHH4258\r3 看到的那样,它正在跳跃,我正在解开木器“M”
python - Tabula-py:从包含表单字段的 pdf 中读取表格
我正在尝试阅读包含多个表格的 pdf,这些表格具有用于勾选/复选标记自由文本、数字、下拉选择等的表单字段。
不幸的是,返回的数据帧不会呈现 pdf 字段中包含的信息。
有谁知道是否也可以提取该信息?