“tabula”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

114 浏览

python-3.x - 如何使用 Python 中的 tabula 库从 pdf 中提取所有表格？

任何人都可以提出一种方法来从 pdf 中提取其中包含已填充值的所有表格吗？

2018-06-19T12:31:15.803

0 投票

1 回答

298 浏览

python - linux环境下的Tabula-py错误

当我尝试运行此代码时，为什么我不断收到此错误“Traceback（最近一次调用最后一次）：文件“sfctabpytrial.py”，第 1 行，in from tabula import read_pdf ImportError：没有名为 tabula 的模块：

在 Linux 中。

python tabula

2018-06-26T17:53:47.273

0 投票

1 回答

1437 浏览

python - 手动安装 Python 库

我需要使用表格库版本 0.9.2。

当我键入以下内容时，一切正常：

我需要使用特定版本的表格。当我输入 python -m pip install tabula==0.9.2 时，我收到以下错误消息：

所以，我现在正在尝试手动安装 tabula 库；但是，我以前从未这样做过。

当我去这里下载

tabula-jar-0.9.2.zip

这些看起来不像我使用 pip 安装模块时通常拥有的文件。有什么我需要知道或做的吗？

python pip version tabula

2018-07-03T20:04:47.160

0 投票

1 回答

4833 浏览

python - Python tabula-py 错误（熊猫错误？）

经过一些在线阅读后，我决定使用 tabula-py 从 pdf 文件中提取表格。我们使用 Anaconda，我刚刚安装了 tabula-py 1.1.1。

我想从一个简单的脚本开始，看看它会如何处理带有一些文本和两个表格的单页 pdf 文件（“table_p16.pdf”）。

编码：

错误：

拿起 JAVA_TOOL_OPTIONS: -Djava.security.properties=c:\Windows\Sun\Java\Deployment\sam.security

回溯（最近一次通话最后）：

文件“H:/Personlich/SVN/blademat_tb/blademat_toolbox/utility/read_pdf.py”，第 41 行，在 df = read_pdf("table_p16.pdf")

文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\tabula\wrapper.py”，第 117 行，在 read_pdf return pd.read_csv(io.BytesIO(output) , **pandas_options)

文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\pandas\io\parsers.py”，第 709 行，在 parser_f 返回 _read(filepath_or_buffer, kwds)

文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\pandas\io\parsers.py”，第 455 行，在 _read data = parser.read(nrows)

文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\pandas\io\parsers.py”，第 1069 行，读取 ret = self._engine.read(nrows )

文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\pandas\io\parsers.py”，第 1839 行，读取数据 = self._reader.read(nrows )

文件“pandas/_libs/parsers.pyx”，第 902 行，在 pandas._libs.parsers.TextReader.read

文件“pandas/_libs/parsers.pyx”，第 924 行，在 pandas._libs.parsers.TextReader._read_low_memory

文件“pandas/_libs/parsers.pyx”，第 978 行，在 pandas._libs.parsers.TextReader._read_rows

文件“pandas/_libs/parsers.pyx”，第 965 行，在 pandas._libs.parsers.TextReader._tokenize_rows

文件“pandas/_libs/parsers.pyx”，第 2208 行，在 pandas._libs.parsers.raise_parser_error

pandas.errors.ParserError：数据标记错误。C 错误：预计第 9 行中有 8 个字段，看到 9

我尝试过的事情：

由于该错误似乎表明熊猫存在问题，因此我尝试使用一张表格阅读单页 pdf。同样的错误也成立。
将用户变量 PATH 设置为 Java。没有改变任何东西。无法将系统变量 PATH 设置为 Java，因为它目前用于我们的 SVN 程序。
不同的代码行，具有相同的错误：
/li>

我希望有人能插手帮助我找出问题所在。这可能是 Java 问题，但我对所需的 Java 交互不是很熟悉。非常感谢您的帮助。

编辑

我尝试了不同的表，有些似乎正在工作。很难确定哪种类型的表格有效。一些“合并”列和其他“合并”行似乎工作。但显然不是全部。此外，我无法使用参数 multiple_tables=True 读取多个表（2 或 3）。

Tabula 可以处理什么样的表格？这让我想知道 Tabula 是否是正确的程序。在我阅读完所有内容之后，我的印象是 Tabula 会擅长这一点。它似乎很难处理的表格并不复杂。

是否有关于如何最大限度地利用 Tabula 的清晰简单的资料？或者有关如何处理 Tabula 难以处理的表格的其他提示？

问候，加布里埃尔

python pandas pdf tabula

2018-07-13T13:59:24.373

0 投票

1 回答

185 浏览

tabula - Tabula - 选择列

我将 x 坐标设置为 1 列，值为 1000，但它导出的 .csv 文件超过 1 列。

你知道为什么吗？我尝试过搜索，但没有任何结果。

tabula

2018-07-14T16:20:19.010

0 投票

3 回答

1924 浏览

python-3.x - 用于无边界表格提取的 Tabula-py

谁能建议我如何使用 python/java 程序从 PDF 中提取表格数据，以获取 pdf 文件中存在的以下无边框表格？

python-3.x pdftotext tabula

2018-07-17T09:04:02.270

0 投票

2 回答

2911 浏览

python - Tabula-py 从我试图提取的 PDF 文档中省略页面

我正在尝试使用 tabula-py 从多页 PDF 中提取表格，虽然 PDF 某些页面上的表格被完美提取，但某些页面被完全省略。

遗漏似乎是随机的，不遵循 PDF 上任何可见的视觉特征（因为每个页面看起来都一样），因此 tabula 省略了第 1 页，提取的第 2 页，省略了第 3 和第 4 页，提取的第 5 页，省略了页面6，提取第8页和第9页，省略10，提取11等。我有macOS Sierra 10.12.6和Python 3.6.3 :: Anaconda custom（64位）。

我尝试将 PDF 分成更短的部分，甚至分成单页，但无论我尝试什么，似乎都无法提取被省略的页面。我已经阅读了 Tabula-py GitHub 页面以及 Stack Overflow 上的相关文档并提交了问题，但我似乎没有找到解决方案。

我通过 iPython 笔记本使用的代码如下：

通过终端安装表格：

要在我的 PDF 中提取表格：

我还尝试了以下方法，但没有任何区别

要将数据框保存到 csv 中：

如果您能帮我解决这个问题，我将非常感激，因为我觉得我被 PDF 卡住了，我只能从中提取大约 50% 的数据。这真令人生气，因为 50% 看起来绝对完美，但其他 50% 似乎超出了我的能力范围，使得分析数据的更大项目变得不可能。

我还想知道这是否可能是 PDF 而不是 Tabula 的问题 - 文件是否会被错误地设置为受保护或锁定，你们中是否有人知道我如何检查并打开它？

提前致谢！

python pdf tabula pdf-extraction

2018-07-29T23:46:50.240

0 投票

1 回答

740 浏览

python - Tabula-py 找不到 pdf 文件

我想用pdfminer 和tabula解析一个 PDF 文件

我读了这个 问题并使用了这段代码：

从 pdfminer.pdfparser 导入 PDFParser 从 pdfminer.pdfdocument 导入 PDFDocument

当我执行我的代码时，我得到了这个错误

奇怪的是，在第 9 行和第 11 行我可以找到该文件，但在第 16 行我有这个错误。

我错了还是表格问题？

python python-2.7 pdf pdfminer tabula

2018-08-02T11:15:47.367

0 投票

1 回答

307 浏览

python - 在 Tabula.py python 中获取警告消息

我正在研究使用 python 将 pdf 文件转换为 csv 的项目。我正在使用tabula.py. 一切正常。我在 csv 文件中获得了明确的表格，但tabula.py显示如下警告消息：

如何抑制或静音此警告？

python csv pdf tabula

2018-08-08T15:58:59.407

0 投票

1 回答

519 浏览

python-3.x - 用俄语文本和 tabula-py 解析 PDF 返回 ???? 结果。（在窗户上）

我在 Windows 7 32 位。当我解析俄语文本 PDF 时，我收到带有 ??? 的结果文件而不是俄语字符。开发人员通过此修复解决了此问题

我有？在 Windows 上带有结果的字符。我怎样才能避免它？如果 PDF 的编码是 UTF-8，您应该在启动 Python 进程之前在终端上设置 chcp 65001。

chcp 65001

我在 windows cmd 中更改了它，但没有结果。

我的代码

错误日志：

我生成的文件仍然显示所有俄语字符 ??????? 你如何解决这个问题？

这就是原始 PDF 的外观。

python-3.x tabula

2018-08-10T12:51:03.340

问题标签 [tabula]

Reference