“tabulizer”的相关标签问题

0 投票

0 回答

233 浏览

r - 从 R 中超过一页的 pdf 文件中提取表格

我想从 pdf 文件中提取表格并在 R 中对其进行分析。我正在使用 tabulizer::extract_tables() 函数。

该表超过一页（第 6 至第 9 页）。当我使用 extract_table 函数时，我收到一个包含 12 个元素的列表对象。我想要的表格在元素out[[1]]中out[[4]]

问题是：我的表格在所有页面中都没有标题，并且文档有自己的标题。因此，该函数无法分隔正确的列数。该元素out[[1]]有 4 列，out[[2]]并且out[[3]]有 2 列和out[[4]]1 列。有没有办法至少在所有 4 个元素中获得正确数量的列？

代码：

r tabulizer

2019-02-27T17:45:08.673

0 投票

2 回答

3315 浏览

r - 尝试使用制表器时“rJava 引导期间发生 Java 异常”

我正在运行 Mac OS 10.13.6，并使用 RStudio 1.1.8、R 3.5.3、Java 11。如果硬件可能很重要，我使用的是 2013 MacBook Air。

我正在尝试从战争世界宗教密码本的相关性中的 r tabulizer 包中运行 extract_table 函数，可在此处获得。由于 rJava 的错误，我似乎陷入了困境。rJava 库似乎可以很好地加载到 RStudio 中，但是当我运行以下行时：

或尝试加载制表器库，我收到以下错误：

编辑：为清楚起见，以下部分已根据收到的评论进行了更新。

起初我以为是我需要从 Java 12 切换到 Java 11，所以我在 SO 上找到了一篇有用的帖子，并使用以下命令进行切换，而我这样做时没有运行 RStudio 或 R 的实例：

自他们以来问题一直存在，当我在终端中仔细检查我的 Java 版本时，我得到了这个：

所以在我看来，我正在运行 11。

但是，我还安装了 12 个：

我不确定 R 是否正在查看版本 12，或者如何重定向它，或者这里是否还有另一个问题。不幸的是，我无法在 google 或 SO 上找到任何关于此错误的信息，特别是在 R 和 rJava 的上下文中。

如果我可以提供任何其他信息，请告诉我。

谢谢！

r rjava tabulizer

2019-04-07T19:40:29.620

0 投票

1 回答

282 浏览

r - 将带有奇怪标题的 pdf 表导入到 r

我正在尝试将此 pdf https://www.mountwashington.org/uploads/forms/2018/01.pdf导入到 r 并将其格式化为数据框。有没有办法使用奇怪的标头并有效地获取数据的主要标头（而不是较大的标头，如位置和站）？

通过使用转换器网站将 pdf 转换为 excel 文件，然后手动编辑 excel 中的列/行，然后导入到 r，我能够得到我想要的东西，但这非常低效，我想以某种方式在 r 中完成。我尝试使用 tabulizer 包，但它给了我作为字符的数据并且完全没有组织。

这就是我希望它看起来的样子：

这就是我用制表符所能得到的：

然后是更多的行，更多的无组织数据似乎是从页面中随机抽取的。

任何帮助都会很棒，谢谢！

r tabulizer

2019-04-23T22:06:57.527

0 投票

0 回答

68 浏览

r - 如何增加 R 中的 ram 使用量以使用 foreach 进行并行编程

对于一个研究项目，我需要从在线提供的大量 pdf 文档中提取信息。

为了获取信息，我使用了“tabulizer”包（安装了包“rJava”和“tabulizerjars”）。使用“extract_tables()”我已经解决了这个问题。由于一些 pdf 文档的大小（大约 1000 页），我需要增加 ram java 允许通过选项使用（java.parameters = "-Xmx8000m"）。但是，由于我需要多次重复此过程，并且由于读取 pdf 文件需要时间，我尝试使用 foreach 循环和 doParallel 后端并行化循环。

不幸的是，我似乎无法增加可用于 Java 的 ram，因为我不相信“选项（java.parameters = “-Xmx8000m”）”适用于并行会话，因为我收到错误：“任务 1 失败 - ” java.lang.OutOfMemoryError：超出 GC 开销限制”，我使用顺序循环没有收到。

我正在使用一台具有 8GB 内存和 2 个物理内核和 4 个模拟内核的 Windows 机器。但即使使用提供更多内存（16GB）的机器似乎也没有奏效。

我提供了我的代码的简短版本，包括运行良好的顺序部分和 causi 的并行部分

我一直在寻找解决方案大约一两个星期。您的帮助将不胜感激。

期待您的回答或建议。

拉库101

r tabulizer

2019-06-19T13:48:33.833

0 投票

0 回答

101 浏览

r - 从R中的pdf框中提取数据

PDF 有数据框。我想从 R 中的这些框中提取所有数据。我希望在不使用 OCR 的情况下提取这些数据。

pdf中的盒子快照

我试过 Tabulizer 包，但它给出的结果杂乱无章，无法提取。

report <- extract_tables("C:\\Users\\672158\\Desktop\\example1.pdf", encoding = "UTF-8")

r pdf-extraction tabulizer pdftables

2019-07-25T10:48:16.907

0 投票

0 回答

438 浏览

r - PDF：表格提取 - Tabulizer (R)

我正在尝试使用 R tabulizer 包从 PDF 中提取表格。这些函数工作正常，但它无法从整个表中获取所有数据。

以下是我的代码

将 PDF 表 ( D_path) 与tab_tidy数据库进行比较，您可以看到缺少一些信息。在期间找不到所有合并的第一列extract_tables()。此外，该函数也找不到包含“Boi Gordo”和“Boi Magro”信息的所有行。

其余的都处于完美状态。你知道为什么以及如何解决它吗？论坛中处理此问题的问题没有太多答案。

r pdf datatables extract tabulizer

2019-08-12T17:40:54.430

0 投票

0 回答

54 浏览

r - 从 PDF 中抓取数据

我正在尝试使用 R tabulizer 包从 pdf 中收集数据。但是，当我尝试将数据转换为数据框并将其导出为 CSV 时出现错误。我的代码如下。有人可以帮我解决这个问题吗？

r pdf-scraping tabulizer

2019-08-19T01:21:29.260

0 投票

1 回答

700 浏览

r - 如何使用R从pdf文档中提取标题

我需要帮助从 r 中的 pdf 文件中提取信息（例如https://arxiv.org/pdf/1701.07008.pdf）

我正在使用pdftools，但有时pdf_info()不起作用，在这种情况下，我无法自动使用pdf_text()

请注意，tabulizer 在我的 PC 上不起作用。
这是我正在做的处理（抱歉，您需要保存 pdf 并使用自己的路径进行操作）：

我大部分时间都想获得标题和摘要。

r pdf text-mining tabulizer

2019-09-03T12:06:37.467

0 投票

0 回答

117 浏览

r - 带有文件路径字符列表的 R for 循环仅在第一个文件上运行

我在 R 中有一个 for 循环和一个字符列表，其中包括我试图从使用 tabulizer 包中提取数据的 pdf 文件。

该循环有效，但仅适用于目录中的第一个 pdf。我对 R 中的循环相当陌生，非常感谢任何帮助。

r pdftools tabulizer

2019-12-15T22:32:51.553

0 投票

0 回答

75 浏览

r - 如何从 PDF 中干净地提取多页表？

我一直在尝试tabulizer避免硬编码解析，这可能会随着下一份报告而改变。我想知道你们是否有更好的想法。

如果您运行它，您会注意到需要删除区域和总计，但页面拆分和高行是我遇到问题的地方。

r tabulizer

2020-03-10T17:41:32.137

问题标签 [tabulizer]

Reference