“tabula-py”的相关标签问题

0 投票

1 回答

497 浏览

python - 如何在 python 中使用制表符阅读 PDF 时删除“Nan”值？

我正在使用 tabula-py 在 python 中读取我的课程时间表 PDF 文件，返回值“数据”有很多我似乎无法清理的“南”值。有人可以提出解决方案吗？我应该使用一些东西而不是 tabula-py 吗？我已附上 PDF 图片的链接。为了隐私，我已经从 PDF 中编辑了一些信息。1

我的代码如下：

我的输出如下：

另外，什么是'。. 。意思是？

2021-05-30T14:05:37.887

0 投票

0 回答

82 浏览

python-3.x - 使用 Python 提取 PDF 表

我的任务是从 PDF 中提取表格，然后从表格中读取数据。我曾尝试使用 tabula 和 panda 库，但我得到一个空值这里是代码： import tabula as tb import pandas as pd

file_path = "SDII006756_2_Amlodipine_besilate_Valsartan_Hydrochlorothiazide___intermediate_product__Balkanpharma_Dupnitsa_AD.pdf" table = tb.read_pdf(file_path)

Convert_csvFile = tb.convert_into(file_path,'pdfconvert.csv') df = pd.concat(table)

excel_convertinto = df.to_excel('pdfconvert.xlsx')

它抛出的错误如下：

'pages' 参数未指定。默认情况下仅从第 1 页提取。'pages' 参数未指定。默认情况下仅从第 1 页提取。回溯（最后一次调用）：文件“C:\Users\vdash\source\repos\MyWorkOnPython\pdfextraction.py”，第 8 行，在 df = pd.concat(table) 文件“C:\Users\vdash\AppData \Local\Programs\Python\Python39\lib\site-packages\pandas\core\reshape\concat.py"，第 285 行，在 concat op = _Concatenator( 文件 "C:\Users\vdash\AppData\Local\Programs\ Python\Python39\lib\site-packages\pandas\core\reshape\concat.py"，第 342 行，在init中引发 ValueError("No objects to concatenate") ValueError: No objects to concatenate

为什么即使pdf包含表格，它也说没有对象。

python-3.x dataframe pdf information-extraction tabula-py

2021-05-31T10:44:21.100

0 投票

0 回答

37 浏览

java - 在没有 JRE 的情况下安装 tabula-py

我在没有先安装 JRE 的情况下安装了 tabula-py ...我后来安装了 JRE

能够使用 tabula-py 有什么不同吗？或者我应该卸载 tabula-py 并重新安装它？

java installation tabula-py

2021-06-16T21:10:07.130

0 投票

0 回答

231 浏览

python - Tabula Python 包：使用单行读取 pdf

使用 python 的 tabula 包，我试图从多个 pdf 文件中提取表。这对于多行表格非常有效，但是，一些 pdf 文件的表格只有一行。尝试转换这些 pdf 时，它返回一个空列表。这些文件存在问题是有道理的，因为单行表本质上只是另一行文本。

但是，重要的是这些 pdf 也被转换为 DataFrame，因为它们在我的数据集中出现得相当频繁。不幸的是，pdf文件是专有的，所以我不能在这里展示它们。我希望这个限制不会阻止找到解决方案。下面是进行转换的代码行。

我试图以几种方式解决这个问题。首先，我尝试在源代码的原始 pdf 文件中插入额外的一行，不幸的是，这是不可能的。我尝试使用 tabula-py 网站上的提示（https://tabula-py.readthedocs.io/en/latest/faq.html#i-got-a-empty-dataframe-how-can-i-resolve-它）：