问题标签 [tabulizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 安装 tabulizer 包时遇到问题
我使用以下代码安装tabulizer
包:
运行时出现以下错误:
这里出了什么问题?“警告信息”是什么意思?
我使用的是 64 位 R 3.2.3 版本和 jdk1.7.0_79。我的 JAVA_HOME 正确设置为“C:\Program Files\Java\jdk1.7.0_79\jre”。
我以前tabulizer
安装过,我的代码运行良好。也得到了从 PDF 转换的输出。但后来我遇到了 jvm.dll 文件丢失的问题,所以我卸载然后重新安装了所有包(rJava
、miniUI
和)shiny
以及tabulizer
jdk。
有人可以帮我理解如何解决这个问题并tabulizer
在 R 中成功安装包吗?
r - Tabulizer 提取缺失
我正在使用-package 从 PDF 文件中提取表格extract_tables
。tabulizer
一切正常,但如果表格的标题少于 4 行,则不会被提取。如果表格超过 4 行,则它被正确提取。
这是我使用的代码:
我还尝试了固定区域的解决方案:
但在这种情况下,某些列丢失并且某些列被合并。
有人遇到过同样的问题并知道如何解决吗?
r - 如何使用 R 中的制表器更快地提取 pdf
我在 pdf 文件中有一个表格,其中包含超过 100000 行和超过 1900 页,我决定使用 R 包将其写入 .csv 文件tabulizer
。
当我尝试从pdf文件中提取整个数据时
我得到一个错误,
.jcall 中的错误(“rjavatools”、“ljava/lang/object;”、“invokemethod”、cl、:java.lang.outofmemoryerror:超出 gc 开销限制
因此我采用了另一种方法。
我所做的是一页一页地提取 pdf 文件,并将输出保存为 .csv 文件。
1)获取pdf文件的页数
2) 创建一个 for 循环来为每个页面存储一个 .csv 文件。
3)然后创建另一个循环来逐个读取每个文件,并将其rbind到下一个。
我不得不bind_rows()
从dplyr
包中使用,因为并非所有 .csv 文件都以相同数量的列结尾。
结果非常令人满意,尽管完成了大约 1.75 小时,所以我在想也许有更好的方法来做到这一点。有任何想法吗?
r - 在 R 中安装 tabulizer 包
我正在使用 R 版本 3.4.0。我的电脑是64位windows 10。
我想从 R 中的 PDF 文档中提取数据帧。
我尝试使用 github 安装 tabulizer 包,但出现以下错误。
警告如下,
r - 安装 Tabulizer 时出错
使用github中描述的说明并使用 Chocolatey 相应地安装 Java——加上在 R 中安装rJava
和设置路径Sys.setenv(JAVA_HOME = "C:/Program Files/Java/jdk1.8.0_131")
——我在 R 中完成了以下操作:
这是此答案中提供的解决方案。我收到以下错误:
VERBOSE = TRUE
在I 中设置选项install_github
会得到以下附加输出:
我读了这个答案,似乎它与我的用户名有关,该用户名是间隔的并且有口音。但是我该如何配置呢?
编辑:2017 年 6 月 4 日凌晨 1 点 57 分
在用户@jaySf 回答之后,我运行了他回答的部分代码(因为我已经安装了rJava
and devtools
):
并得到以下错误:
我相信我在文件目录路径中的用户名可能有问题,但我不确定。我尝试使用install_github
--`install_github ggplot2
("wch/ggplot2") -- 效果很好。如果我的猜测是正确的,我该如何编辑文件路径?
问题解决了
我正在运行安装了 32 位和 64 位文件的 R。我无法清楚地说明这样做有什么问题,因为我之前运行Sys.getenv("R_ARCH")
它时返回了x64
,但是当我卸载 32 位文件时,它与@jaySf 代码一起运行得非常好。
r - 使用制表符包基于字符串提取列表
使用制表程序包提取季度损益表并将其转换为表格形式。
只对综合收益 表的简明综合报表感兴趣。对于所有历史报告,此字符串完全相同或非常相似。
上面,对于 2017 年的报告,列表 #22 是正确的表格。但是,由于 2009 年的报告有不同的布局,#9 是该特定报告的正确答案。
根据“简明综合综合收益表”字符串(或子字符串)的位置,使该函数动态化的聪明解决方案是什么?
也许使用 tm 包来查找相对位置?
谢谢
r - R中的制表函数
我想在这个pdf文档中提取第112页的表格:
我曾尝试使用这些关于“tabulize”包的教程( link1、link2 ),但我基本上失败了。有一些困难的方面我不是很有经验如何在 R 中处理。
有人可以提出一些建议并帮助我吗?
安装
r - PDF 转换为 CSV R
我正在尝试将以下 PDF 加载到 R 中,并将表格转换为 CSV 文件。
我已经尝试了 library(pdftools) 和 library(tabulizer),并且我花了一个下午浏览各种论坛,但我似乎没有找到适合我的答案。我可以使用以下代码将 PDF 加载到 R
它上传得很好,但它根本不是我可以使用的表格。
这是PDF文件的链接:
http://vege1.kan.ynu.ac.jp/traits/PlantTraitAsia.pdf
我只想将表格上传到 R 中,保留标题,并能够将其导出到 TXT、CSV 或 XLS 文件。
谢谢你的帮助
r - 根据 R 中的页面拆分 PDF
我有一个包含多页的 pdf 文件,但我只对其中的一个子组感兴趣。例如,我的原始 PDF 有 30 页,我只想要第 10 到 16 页。
我尝试使用 tabulizer 包中的 split_pdf 函数,它只将 pdf 页面拆分为页面(产生 200 个文件,每页一个),然后是 merge_pdfs(合并 pdf 文件)。它工作正常,但需要很长时间(我必须拆分大约 2000 个 pdf 文件)。
这是我正在使用的代码:
我找不到更好的选择来做到这一点。任何帮助将不胜感激。