-1

我正在尝试将以下 PDF 加载到 R 中,并将表格转换为 CSV 文件。

我已经尝试了 library(pdftools) 和 library(tabulizer),并且我花了一个下午浏览各种论坛,但我似乎没有找到适合我的答案。我可以使用以下代码将 PDF 加载到 R

x <- pdf_text("~/Desktop/PlantTraitAsia.pdf")

它上传得很好,但它根本不是我可以使用的表格。

这是PDF文件的链接:

http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf

我只想将表格上传到 R 中,保留标题,并能够将其导出到 TXT、CSV 或 XLS 文件。

谢谢你的帮助

4

1 回答 1

2

这在我的机器上运行良好:

zz <- tabulizer::extract_tables("http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf", pages = 2)
head(zz[[1]])

这会产生:

     [,1]  [,2]                      [,3]                    
[1,] "ID"  "Category\rof\rpermissio" "Species"               
[2,] "83"  "A"                       "Abies mariesii Masters"
[3,] "155" "A"                       "Abies mariesii Masters"
[4,] "225" "A"                       "Abies mariesii Masters"
[5,] "297" "A"                       "Abies mariesii Masters"
[6,] "369" "A"                       "Abies mariesii Masters"
     [,4]                                                                            [,5]         [,6]   
[1,] "Traits"                                                                        "Value"      "Notes"
[2,] "Maximum heighyt (m)"                                                           "18.17"      ""     
[3,] "Shade tolerance (min. relative\rlight intensity, %), Anderson\r1964. J. Ecol." "1.15"       ""     
[4,] "Length of fruit (mm)"                                                          "8"          ""     
[5,] "Pollination mode"                                                              "Anemophily" ""     
[6,] "Type of fruit"                                                                 "Wing-hair"  ""     

要仅获取标题(表格的第一行):

zz[[1]][1,]
于 2018-02-20T12:33:55.283 回答