3

我有一个包含许多表格的 PDF,我正在尝试使用 R 将它们解析为更易读的格式。到目前为止,我尝试了两种方法:

  1. 用于pdftools::pdftext()获取文本,然后基本上使用正则表达式手动读取表格(老实说并没有听起来那么糟糕)
  2. using tabulizer::extract_tables(),它以某种方式神奇地为我完成了所有工作(它有点慢但可以忍受)

这两种方法都出奇的好,但仍然存在一些与弄乱列/对齐有关的问题——有时列被合并,有时标题与数据列未对齐,等等。我愿意蛮力争吵数据,但是在我尝试之前,我只是想看看是否有更聪明的方法来做到这一点。

那么,有没有更好的方法从 PDF 中读取表格?

4

0 回答 0