“tabulizer”的相关标签问题

0 投票

3 回答

6451 浏览

r - 安装 tabulizer 包时遇到问题

我使用以下代码安装tabulizer包：

运行时出现以下错误：

这里出了什么问题？“警告信息”是什么意思？

我使用的是 64 位 R 3.2.3 版本和 jdk1.7.0_79。我的 JAVA_HOME 正确设置为“C:\Program Files\Java\jdk1.7.0_79\jre”。

我以前tabulizer安装过，我的代码运行良好。也得到了从 PDF 转换的输出。但后来我遇到了 jvm.dll 文件丢失的问题，所以我卸载然后重新安装了所有包（rJava、miniUI和）shiny以及tabulizerjdk。

有人可以帮我理解如何解决这个问题并tabulizer在 R 中成功安装包吗？

r installation failed-installation tabulizer

2016-08-24T20:07:05.710

0 投票

1 回答

196 浏览

r - 精炼从 pdf 中提取的表格 - Tabulizer

我在 R 中的 Tabulizer 的帮助下从 PDF 中提取了一些表格。下面是其中一个表格的代码

提取表的输出有一些怪癖，例如它被拆分为 2 并且一些数据没有正确分隔。

我正在寻找的所需输出应该接近原始表：

我现在很困惑，如果有人能指出我正确的方向，我会很感激。提前致谢。

r dataframe pdf tabulizer

2017-02-17T09:55:18.857

0 投票

0 回答

553 浏览

r - Tabulizer 提取缺失

我正在使用-package 从 PDF 文件中提取表格extract_tables。tabulizer一切正常，但如果表格的标题少于 4 行，则不会被提取。如果表格超过 4 行，则它被正确提取。

这是我使用的代码：

我还尝试了固定区域的解决方案：

但在这种情况下，某些列丢失并且某些列被合并。

有人遇到过同样的问题并知道如何解决吗？

r tabulizer

2017-04-07T11:13:24.723

0 投票

0 回答

735 浏览

r - 如何使用 R 中的制表器更快地提取 pdf

我在 pdf 文件中有一个表格，其中包含超过 100000 行和超过 1900 页，我决定使用 R 包将其写入 .csv 文件tabulizer。

当我尝试从pdf文件中提取整个数据时

我得到一个错误，

.jcall 中的错误（“rjavatools”、“ljava/lang/object;”、“invokemethod”、cl、：java.lang.outofmemoryerror：超出 gc 开销限制

因此我采用了另一种方法。

我所做的是一页一页地提取 pdf 文件，并将输出保存为 .csv 文件。

1）获取pdf文件的页数

2) 创建一个 for 循环来为每个页面存储一个 .csv 文件。

3）然后创建另一个循环来逐个读取每个文件，并将其rbind到下一个。

我不得不bind_rows()从dplyr包中使用，因为并非所有 .csv 文件都以相同数量的列结尾。

结果非常令人满意，尽管完成了大约 1.75 小时，所以我在想也许有更好的方法来做到这一点。有任何想法吗？

r csv pdf tabulizer

2017-04-27T03:23:02.777

0 投票

1 回答

4789 浏览

r - 在 R 中安装 tabulizer 包

我正在使用 R 版本 3.4.0。我的电脑是64位windows 10。

我想从 R 中的 PDF 文档中提取数据帧。

我尝试使用 github 安装 tabulizer 包，但出现以下错误。

警告如下，

r package tabulizer

2017-05-10T06:00:38.633

0 投票

3 回答

5346 浏览

r - 安装 Tabulizer 时出错

使用github中描述的说明并使用 Chocolatey 相应地安装 Java——加上在 R 中安装rJava和设置路径Sys.setenv(JAVA_HOME = "C:/Program Files/Java/jdk1.8.0_131")——我在 R 中完成了以下操作：

这是此答案中提供的解决方案。我收到以下错误：

VERBOSE = TRUE在I 中设置选项install_github会得到以下附加输出：

我读了这个答案，似乎它与我的用户名有关，该用户名是间隔的并且有口音。但是我该如何配置呢？

编辑：2017 年 6 月 4 日凌晨 1 点 57 分

在用户@jaySf 回答之后，我运行了他回答的部分代码（因为我已经安装了rJavaand devtools）：

并得到以下错误：

我相信我在文件目录路径中的用户名可能有问题，但我不确定。我尝试使用install_github--`install_github ggplot2("wch/ggplot2") -- 效果很好。如果我的猜测是正确的，我该如何编辑文件路径？

问题解决了

我正在运行安装了 32 位和 64 位文件的 R。我无法清楚地说明这样做有什么问题，因为我之前运行Sys.getenv("R_ARCH")它时返回了x64，但是当我卸载 32 位文件时，它与@jaySf 代码一起运行得非常好。

r github installation tabulizer

2017-06-03T17:18:49.573

0 投票

1 回答

195 浏览

r - 使用制表符包基于字符串提取列表

使用制表程序包提取季度损益表并将其转换为表格形式。

只对综合收益表的简明综合报表感兴趣。对于所有历史报告，此字符串完全相同或非常相似。

上面，对于 2017 年的报告，列表 #22 是正确的表格。但是，由于 2009 年的报告有不同的布局，#9 是该特定报告的正确答案。

根据“简明综合综合收益表”字符串（或子字符串）的位置，使该函数动态化的聪明解决方案是什么？

也许使用 tm 包来查找相对位置？

谢谢

r tm tabulizer

2017-10-26T09:55:41.680

0 投票

1 回答

260 浏览

r - R中的制表函数

我想在这个pdf文档中提取第112页的表格：

http://publications.credit-suisse.com/tasks/render/file/index.cfm?fileid=432759CA-0A73-57F6-04C67EF7EE506040

我曾尝试使用这些关于“tabulize”包的教程（ link1、link2 ），但我基本上失败了。有一些困难的方面我不是很有经验如何在 R 中处理。

有人可以提出一些建议并帮助我吗？

安装

r pdf tabulizer pdftex

2017-12-13T12:42:36.833

0 投票

1 回答

1979 浏览

r - PDF 转换为 CSV R

我正在尝试将以下 PDF 加载到 R 中，并将表格转换为 CSV 文件。

我已经尝试了 library(pdftools) 和 library(tabulizer)，并且我花了一个下午浏览各种论坛，但我似乎没有找到适合我的答案。我可以使用以下代码将 PDF 加载到 R

它上传得很好，但它根本不是我可以使用的表格。

这是PDF文件的链接：

http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf

我只想将表格上传到 R 中，保留标题，并能够将其导出到 TXT、CSV 或 XLS 文件。

谢谢你的帮助

r csv pdf pdftools tabulizer

2018-02-20T12:01:26.510

0 投票

3 回答

4375 浏览

r - 根据 R 中的页面拆分 PDF

我有一个包含多页的 pdf 文件，但我只对其中的一个子组感兴趣。例如，我的原始 PDF 有 30 页，我只想要第 10 到 16 页。

我尝试使用 tabulizer 包中的 split_pdf 函数，它只将 pdf 页面拆分为页面（产生 200 个文件，每页一个），然后是 merge_pdfs（合并 pdf 文件）。它工作正常，但需要很长时间（我必须拆分大约 2000 个 pdf 文件）。

这是我正在使用的代码：

我找不到更好的选择来做到这一点。任何帮助将不胜感激。

r pdf split tabulizer

2018-03-16T21:20:46.967

问题标签 [tabulizer]

Reference