python - 从 PDF 中提取表格

Question

我有一个包含文本、图像和表格的 pdf 文件。我想使用 Python 或 R 从该 pdf 文件中提取表格。

score 2 · Accepted Answer

如果您正在考虑使用R，我建议您使用 tabulizer 包。
它在这里可用，并且非常易于使用。要安装它，您必须使用以下命令：

install.packages("devtools")
devtools::install_github("ropensci/tabulizer")

并使用他们的一个例子：

library("tabulizer")
f <- system.file("examples", "data.pdf", package = "tabulizer")
# When f is your selected pdf file.
out1 <- extract_tables(f)
# Or even better, say what page the tables are in.
out2 <- extract_tables(f, pages = 1, guess = FALSE, method = "data.frame")

score 1 · Accepted Answer

你可能会发现 PyPI 很有用——你可以在那里搜索特定的东西，比如“PDF”，它会给你一个与 PDF 相关的模块列表（这里）。从它对 PyPI 的重要性来看，您可能需要 PDF 1.0。这应该可以帮助您入门！

python - 从 PDF 中提取表格

2 回答 2

Related

Reference