问题标签 [tabulizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
233 浏览

r - 从 R 中超过一页的 pdf 文件中提取表格

我想从 pdf 文件中提取表格并在 R 中对其进行分析。我正在使用 tabulizer::extract_tables() 函数。

该表超过一页(第 6 至第 9 页)。当我使用 extract_table 函数时,我收到一个包含 12 个元素的列表对象。我想要的表格在元素out[[1]]out[[4]]

问题是:我的表格在所有页面中都没有标题,并且文档有自己的标题。因此,该函数无法分隔正确的列数。该元素out[[1]]有 4 列,out[[2]]并且out[[3]]有 2 列和out[[4]]1 列。有没有办法至少在所有 4 个元素中获得正确数量的列?

代码:

0 投票
2 回答
3315 浏览

r - 尝试使用制表器时“rJava 引导期间发生 Java 异常”

我正在运行 Mac OS 10.13.6,并使用 RStudio 1.1.8、R 3.5.3、Java 11。如果硬件可能很重要,我使用的是 2013 MacBook Air。

我正在尝试从战争世界宗教密码本的相关性中的 r tabulizer 包中运行 extract_table 函数,可在此处获得。由于 rJava 的错误,我似乎陷入了困境。rJava 库似乎可以很好地加载到 RStudio 中,但是当我运行以下行时:

或尝试加载制表器库,我收到以下错误:

编辑:为清楚起见,以下部分已根据收到的评论进行了更新。

起初我以为是我需要从 Java 12 切换到 Java 11,所以我在 SO 上找到了一篇有用的帖子,并使用以下命令进行切换,而我这样做时没有运行 RStudio 或 R 的实例:

自他们以来问题一直存在,当我在终端中仔细检查我的 Java 版本时,我得到了这个:

所以在我看来,我正在运行 11。

但是,我还安装了 12 个:

我不确定 R 是否正在查看版本 12,或者如何重定向它,或者这里是否还有另一个问题。不幸的是,我无法在 google 或 SO 上找到任何关于此错误的信息,特别是在 R 和 rJava 的上下文中。

如果我可以提供任何其他信息,请告诉我。

谢谢!

0 投票
1 回答
282 浏览

r - 将带有奇怪标题的 pdf 表导入到 r

我正在尝试将此 pdf https://www.mountwashington.org/uploads/forms/2018/01.pdf导入到 r 并将其格式化为数据框。有没有办法使用奇怪的标头并有效地获取数据的主要标头(而不是较大的标头,如位置和站)?

通过使用转换器网站将 pdf 转换为 excel 文件,然后手动编辑 excel 中的列/行,然后导入到 r,我能够得到我想要的东西,但这非常低效,我想以某种方式在 r 中完成。我尝试使用 tabulizer 包,但它给了我作为字符的数据并且完全没有组织。

这就是我希望它看起来的样子:

这就是我用制表符所能得到的:

然后是更多的行,更多的无组织数据似乎是从页面中随机抽取的。

任何帮助都会很棒,谢谢!

0 投票
0 回答
68 浏览

r - 如何增加 R 中的 ram 使用量以使用 foreach 进行并行编程

对于一个研究项目,我需要从在线提供的大量 pdf 文档中提取信息。

为了获取信息,我使用了“tabulizer”包(安装了包“rJava”和“tabulizerjars”)。使用“extract_tables()”我已经解决了这个问题。由于一些 pdf 文档的大小(大约 1000 页),我需要增加 ram java 允许通过选项使用(java.parameters = "-Xmx8000m")。但是,由于我需要多次重复此过程,并且由于读取 pdf 文件需要时间,我尝试使用 foreach 循环和 doParallel 后端并行化循环。

不幸的是,我似乎无法增加可用于 Java 的 ram,因为我不相信“选项(java.parameters = “-Xmx8000m”)”适用于并行会话,因为我收到错误:“任务 1 失败 - ” java.lang.OutOfMemoryError:超出 GC 开销限制”,我使用顺序循环没有收到。

我正在使用一台具有 8GB 内存和 2 个物理内核和 4 个模拟内核的 Windows 机器。但即使使用提供更多内存(16GB)的机器似乎也没有奏效。

我提供了我的代码的简短版本,包括运行良好的顺序部分和 causi 的并行部分

我一直在寻找解决方案大约一两个星期。您的帮助将不胜感激。

期待您的回答或建议。

拉库101

0 投票
0 回答
101 浏览

r - 从R中的pdf框中提取数据

PDF 有数据框。我想从 R 中的这些框中提取所有数据。我希望在不使用 OCR 的情况下提取这些数据。

pdf中的盒子快照

我试过 Tabulizer 包,但它给出的结果杂乱无章,无法提取。

report <- extract_tables("C:\\Users\\672158\\Desktop\\example1.pdf", encoding = "UTF-8")

0 投票
0 回答
438 浏览

r - PDF:表格提取 - Tabulizer (R)

我正在尝试使用 R tabulizer 包从 PDF 中提取表格。这些函数工作正常,但它无法从整个表中获取所有数据。

以下是我的代码

将 PDF 表 ( D_path) 与tab_tidy数据库进行比较,您可以看到缺少一些信息。在 期间找不到所有合并的第一列extract_tables()。此外,该函数也找不到包含“Boi Gordo”和“Boi Magro”信息的所有行。

其余的都处于完美状态。你知道为什么以及如何解决它吗?论坛中处理此问题的问题没有太多答案。

0 投票
0 回答
54 浏览

r - 从 PDF 中抓取数据

我正在尝试使用 R tabulizer 包从 pdf 中收集数据。但是,当我尝试将数据转换为数据框并将其导出为 CSV 时出现错误。我的代码如下。有人可以帮我解决这个问题吗?

0 投票
1 回答
700 浏览

r - 如何使用R从pdf文档中提取标题

我需要帮助从 r 中的 pdf 文件中提取信息(例如https://arxiv.org/pdf/1701.07008.pdf

我正在使用pdftools,但有时pdf_info()不起作用,在这种情况下,我无法自动使用pdf_text()

请注意,tabulizer 在我的 PC 上不起作用。
这是我正在做的处理(抱歉,您需要保存 pdf 并使用自己的路径进行操作):

我大部分时间都想获得标题和摘要。

0 投票
0 回答
117 浏览

r - 带有文件路径字符列表的 R for 循环仅在第一个文件上运行

我在 R 中有一个 for 循环和一个字符列表,其中包括我试图从使用 tabulizer 包中提取数据的 pdf 文件。

该循环有效,但仅适用于目录中的第一个 pdf。我对 R 中的循环相当陌生,非常感谢任何帮助。

0 投票
0 回答
75 浏览

r - 如何从 PDF 中干净地提取多页表?

我一直在尝试tabulizer避免硬编码解析,这可能会随着下一份报告而改变。我想知道你们是否有更好的想法。

如果您运行它,您会注意到需要删除区域和总计,但页面拆分和高行是我遇到问题的地方。