问题标签 [tabulizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
6451 浏览

r - 安装 tabulizer 包时遇到问题

我使用以下代码安装tabulizer包:

运行时出现以下错误:

这里出了什么问题?“警告信息”是什么意思?

我使用的是 64 位 R 3.2.3 版本和 jdk1.7.0_79。我的 JAVA_HOME 正确设置为“C:\Program Files\Java\jdk1.7.0_79\jre”。

我以前tabulizer安装过,我的代码运行良好。也得到了从 PDF 转换的输出。但后来我遇到了 jvm.dll 文件丢失的问题,所以我卸载然后重新安装了所有包(rJavaminiUI和)shiny以及tabulizerjdk。

有人可以帮我理解如何解决这个问题并tabulizer在 R 中成功安装包吗?

0 投票
1 回答
196 浏览

r - 精炼从 pdf 中提取的表格 - Tabulizer

我在 R 中的 Tabulizer 的帮助下从 PDF 中提取了一些表格。下面是其中一个表格的代码

提取表的输出有一些怪癖,例如它被拆分为 2 并且一些数据没有正确分隔。

我正在寻找的所需输出应该接近原始表:

在此处输入图像描述

我现在很困惑,如果有人能指出我正确的方向,我会很感激。提前致谢。

0 投票
0 回答
553 浏览

r - Tabulizer 提取缺失

我正在使用-package 从 PDF 文件中提取表格extract_tablestabulizer一切正常,但如果表格的标题少于 4 行,则不会被提取。如果表格超过 4 行,则它被正确提取。

这是我使用的代码:

我还尝试了固定区域的解决方案:

但在这种情况下,某些列丢失并且某些列被合并。

有人遇到过同样的问题并知道如何解决吗?

0 投票
0 回答
735 浏览

r - 如何使用 R 中的制表器更快地提取 pdf

我在 pdf 文件中有一个表格,其中包含超过 100000 行和超过 1900 页,我决定使用 R 包将其写入 .csv 文件tabulizer

当我尝试从pdf文件中提取整个数据时

我得到一个错误,

.jcall 中的错误(“rjavatools”、“ljava/lang/object;”、“invokemethod”、cl、:java.lang.outofmemoryerror:超出 gc 开销限制

因此我采用了另一种方法。

我所做的是一页一页地提取 pdf 文件,并将输出保存为 .csv 文件。

1)获取pdf文件的页数

2) 创建一个 for 循环来为每个页面存储一个 .csv 文件。

3)然后创建另一个循环来逐个读取每个文件,并将其rbind到下一个。

我不得不bind_rows()dplyr包中使用,因为并非所有 .csv 文件都以相同数量的列结尾。

结果非常令人满意,尽管完成了大约 1.75 小时,所以我在想也许有更好的方法来做到这一点。有任何想法吗?

0 投票
1 回答
4789 浏览

r - 在 R 中安装 tabulizer 包

我正在使用 R 版本 3.4.0。我的电脑是64位windows 10。

我想从 R 中的 PDF 文档中提取数据帧。

我尝试使用 github 安装 tabulizer 包,但出现以下错误。

警告如下,

0 投票
3 回答
5346 浏览

r - 安装 Tabulizer 时出错

使用github中描述的说明并使用 Chocolatey 相应地安装 Java——加上在 R 中安装rJava和设置路径Sys.setenv(JAVA_HOME = "C:/Program Files/Java/jdk1.8.0_131")——我在 R 中完成了以下操作:

这是此答案中提供的解决方案。我收到以下错误:

VERBOSE = TRUE在I 中设置选项install_github会得到以下附加输出:

我读了这个答案,似乎它与我的用户名有关,该用户名是间隔的并且有口音。但是我该如何配置呢?


编辑:2017 年 6 月 4 日凌晨 1 点 57 分

在用户@jaySf 回答之后,我运行了他回答的部分代码(因为我已经安装了rJavaand devtools):

并得到以下错误:

我相信我在文件目录路径中的用户名可能有问题,但我不确定。我尝试使用install_github--`install_github ggplot2("wch/ggplot2") -- 效果很好。如果我的猜测是正确的,我该如何编辑文件路径?


问题解决了

我正在运行安装了 32 位和 64 位文件的 R。我无法清楚地说明这样做有什么问题,因为我之前运行Sys.getenv("R_ARCH")它时返回了x64,但是当我卸载 32 位文件时,它与@jaySf 代码一起运行得非常好。

0 投票
1 回答
195 浏览

r - 使用制表符包基于字符串提取列表

使用制表程序包提取季度损益表并将其转换为表格形式。

只对综合收益 表的简明综合报表感兴趣。对于所有历史报告,此字符串完全相同或非常相似。

上面,对于 2017 年的报告,列表 #22 是正确的表格。但是,由于 2009 年的报告有不同的布局,#9 是该特定报告的正确答案。

根据“简明综合综合收益表”字符串(或子字符串)的位置,使该函数动态化的聪明解决方案是什么?

也许使用 tm 包来查找相对位置?

谢谢

0 投票
1 回答
260 浏览

r - R中的制表函数

我想在这个pdf文档中提取第112页的表格:

http://publications.credit-suisse.com/tasks/render/file/index.cfm?fileid=432759CA-0A73-57F6-04C67EF7EE506040

我曾尝试使用这些关于“tabulize”包的教程( link1link2 ),但我基本上失败了。有一些困难的方面我不是很有经验如何在 R 中处理。

有人可以提出一些建议并帮助我吗?

安装

0 投票
1 回答
1979 浏览

r - PDF 转换为 CSV R

我正在尝试将以下 PDF 加载到 R 中,并将表格转换为 CSV 文件。

我已经尝试了 library(pdftools) 和 library(tabulizer),并且我花了一个下午浏览各种论坛,但我似乎没有找到适合我的答案。我可以使用以下代码将 PDF 加载到 R

它上传得很好,但它根本不是我可以使用的表格。

这是PDF文件的链接:

http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf

我只想将表格上传到 R 中,保留标题,并能够将其导出到 TXT、CSV 或 XLS 文件。

谢谢你的帮助

0 投票
3 回答
4375 浏览

r - 根据 R 中的页面拆分 PDF

我有一个包含多页的 pdf 文件,但我只对其中的一个子组感兴趣。例如,我的原始 PDF 有 30 页,我只想要第 10 到 16 页。

我尝试使用 tabulizer 包中的 split_pdf 函数,它只将 pdf 页面拆分为页面(产生 200 个文件,每页一个),然后是 merge_pdfs(合并 pdf 文件)。它工作正常,但需要很长时间(我必须拆分大约 2000 个 pdf 文件)。

这是我正在使用的代码:

我找不到更好的选择来做到这一点。任何帮助将不胜感激。