-3

我有一个包含文本、图像和表格的 pdf 文件。我想使用 Python 或 R 从该 pdf 文件中提取表格。

4

2 回答 2

2

如果您正在考虑使用R,我建议您使用 tabulizer 包。
它在这里可用,并且非常易于使用。要安装它,您必须使用以下命令:

install.packages("devtools")
devtools::install_github("ropensci/tabulizer")

并使用他们的一个例子:

library("tabulizer")
f <- system.file("examples", "data.pdf", package = "tabulizer")
# When f is your selected pdf file.
out1 <- extract_tables(f)
# Or even better, say what page the tables are in.
out2 <- extract_tables(f, pages = 1, guess = FALSE, method = "data.frame")
于 2018-01-28T08:10:59.620 回答
1

你可能会发现 PyPI 很有用——你可以在那里搜索特定的东西,比如“PDF”,它会给你一个与 PDF 相关的模块列表(这里)。从它对 PyPI 的重要性来看,您可能需要 PDF 1.0。这应该可以帮助您入门!

于 2018-01-28T06:58:10.803 回答