问题标签 [tabula]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 如何使用 Python 中的 tabula 库从 pdf 中提取所有表格?
任何人都可以提出一种方法来从 pdf 中提取其中包含已填充值的所有表格吗?
python - linux环境下的Tabula-py错误
当我尝试运行此代码时,为什么我不断收到此错误“Traceback(最近一次调用最后一次):文件“sfctabpytrial.py”,第 1 行,in from tabula import read_pdf ImportError:没有名为 tabula 的模块:
在 Linux 中。
python - 手动安装 Python 库
我需要使用表格库版本 0.9.2。
当我键入以下内容时,一切正常:
我需要使用特定版本的表格。当我输入 python -m pip install tabula==0.9.2 时,我收到以下错误消息:
所以,我现在正在尝试手动安装 tabula 库;但是,我以前从未这样做过。
当我去这里下载
tabula-jar-0.9.2.zip
这些看起来不像我使用 pip 安装模块时通常拥有的文件。有什么我需要知道或做的吗?
python - Python tabula-py 错误(熊猫错误?)
经过一些在线阅读后,我决定使用 tabula-py 从 pdf 文件中提取表格。我们使用 Anaconda,我刚刚安装了 tabula-py 1.1.1。
我想从一个简单的脚本开始,看看它会如何处理带有一些文本和两个表格的单页 pdf 文件(“table_p16.pdf”)。
编码:
错误:
拿起 JAVA_TOOL_OPTIONS: -Djava.security.properties=c:\Windows\Sun\Java\Deployment\sam.security
回溯(最近一次通话最后):
文件“H:/Personlich/SVN/blademat_tb/blademat_toolbox/utility/read_pdf.py”,第 41 行,在 df = read_pdf("table_p16.pdf")
文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\tabula\wrapper.py”,第 117 行,在 read_pdf return pd.read_csv(io.BytesIO(output) , **pandas_options)
文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\pandas\io\parsers.py”,第 709 行,在 parser_f 返回 _read(filepath_or_buffer, kwds)
文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\pandas\io\parsers.py”,第 455 行,在 _read data = parser.read(nrows)
文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\pandas\io\parsers.py”,第 1069 行,读取 ret = self._engine.read(nrows )
文件“C:\Users\xxxxxxxxxxxx\AppData\Local\Continuum\Anaconda3\envs\test_env\lib\site-packages\pandas\io\parsers.py”,第 1839 行,读取数据 = self._reader.read(nrows )
文件“pandas/_libs/parsers.pyx”,第 902 行,在 pandas._libs.parsers.TextReader.read
文件“pandas/_libs/parsers.pyx”,第 924 行,在 pandas._libs.parsers.TextReader._read_low_memory
文件“pandas/_libs/parsers.pyx”,第 978 行,在 pandas._libs.parsers.TextReader._read_rows
文件“pandas/_libs/parsers.pyx”,第 965 行,在 pandas._libs.parsers.TextReader._tokenize_rows
文件“pandas/_libs/parsers.pyx”,第 2208 行,在 pandas._libs.parsers.raise_parser_error
pandas.errors.ParserError:数据标记错误。C 错误:预计第 9 行中有 8 个字段,看到 9
我尝试过的事情:
- 由于该错误似乎表明熊猫存在问题,因此我尝试使用一张表格阅读单页 pdf。同样的错误也成立。
- 将用户变量 PATH 设置为 Java。没有改变任何东西。无法将系统变量 PATH 设置为 Java,因为它目前用于我们的 SVN 程序。
不同的代码行,具有相同的错误:
/li>
我希望有人能插手帮助我找出问题所在。这可能是 Java 问题,但我对所需的 Java 交互不是很熟悉。非常感谢您的帮助。
编辑
我尝试了不同的表,有些似乎正在工作。很难确定哪种类型的表格有效。一些“合并”列和其他“合并”行似乎工作。但显然不是全部。此外,我无法使用参数 multiple_tables=True 读取多个表(2 或 3)。
Tabula 可以处理什么样的表格?这让我想知道 Tabula 是否是正确的程序。在我阅读完所有内容之后,我的印象是 Tabula 会擅长这一点。它似乎很难处理的表格并不复杂。
是否有关于如何最大限度地利用 Tabula 的清晰简单的资料?或者有关如何处理 Tabula 难以处理的表格的其他提示?
问候,加布里埃尔
tabula - Tabula - 选择列
我将 x 坐标设置为 1 列,值为 1000,但它导出的 .csv 文件超过 1 列。
你知道为什么吗?我尝试过搜索,但没有任何结果。
python - Tabula-py 从我试图提取的 PDF 文档中省略页面
我正在尝试使用 tabula-py 从多页 PDF 中提取表格,虽然 PDF 某些页面上的表格被完美提取,但某些页面被完全省略。
遗漏似乎是随机的,不遵循 PDF 上任何可见的视觉特征(因为每个页面看起来都一样),因此 tabula 省略了第 1 页,提取的第 2 页,省略了第 3 和第 4 页,提取的第 5 页,省略了页面6,提取第8页和第9页,省略10,提取11等。我有macOS Sierra 10.12.6和Python 3.6.3 :: Anaconda custom(64位)。
我尝试将 PDF 分成更短的部分,甚至分成单页,但无论我尝试什么,似乎都无法提取被省略的页面。我已经阅读了 Tabula-py GitHub 页面以及 Stack Overflow 上的相关文档并提交了问题,但我似乎没有找到解决方案。
我通过 iPython 笔记本使用的代码如下:
通过终端安装表格:
要在我的 PDF 中提取表格:
我还尝试了以下方法,但没有任何区别
要将数据框保存到 csv 中:
如果您能帮我解决这个问题,我将非常感激,因为我觉得我被 PDF 卡住了,我只能从中提取大约 50% 的数据。这真令人生气,因为 50% 看起来绝对完美,但其他 50% 似乎超出了我的能力范围,使得分析数据的更大项目变得不可能。
我还想知道这是否可能是 PDF 而不是 Tabula 的问题 - 文件是否会被错误地设置为受保护或锁定,你们中是否有人知道我如何检查并打开它?
提前致谢!
python - Tabula-py 找不到 pdf 文件
我想用pdfminer 和tabula解析一个 PDF 文件
我读了这个 问题并使用了这段代码:
从 pdfminer.pdfparser 导入 PDFParser 从 pdfminer.pdfdocument 导入 PDFDocument
当我执行我的代码时,我得到了这个错误
奇怪的是,在第 9 行和第 11 行我可以找到该文件,但在第 16 行我有这个错误。
我错了还是表格问题?
python - 在 Tabula.py python 中获取警告消息
我正在研究使用 python 将 pdf 文件转换为 csv 的项目。我正在使用tabula.py
. 一切正常。我在 csv 文件中获得了明确的表格,但tabula.py
显示如下警告消息:
如何抑制或静音此警告?