问题标签 [tabulizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
100 浏览

r - R tabulizer 编码或安全性

我一直在 R 中使用制表符包进行练习,并遇到以下问题。不幸的是,我无法提供可重现的示例,因为 pdf 是公司的财产,但我将详细描述问题。

我正在尝试阅读右上角有开始和结束日期的 PDF。当我打开 PDF 时,它们看起来很正常

现在有趣的部分。当我突出显示它们并使用 Ctrl+C 将它们复制到此处时,是粘贴到 R 时的结果。

这与会给出的废话完全相同extract_text(path, pages=1)。很多 t::ttttt:ttt... 我的问题是这个 PDF 中有一些安全性还是我只需要找出正确的编码或者因为这个 PDF 是从系统自动创建的,所以所有东西都有一些奇怪的符号?

0 投票
1 回答
449 浏览

r - 来自制表器的数据输出的错误聚合

我对 R 很陌生——但现在花了几天时间拼凑(感谢堆栈交换社区)我需要的代码,以完成我想要做的事情:从头到尾,我使用的是 Tabulizer 包将 pdf 表处理为 R。我正在努力解决数字的错误聚合(关闭 pdf)以及如何有效地将它们分成适当的列。

这是 Tabulizer 输出中相关列的子集:

更具体地说:“1 800 55, 8”是“1800”和“55.8”的错误聚合,并且在整个列中都会出现这种情况(应该是两个)。

我正在使用 gsub(在循环中)将小数逗号替换为小数点,并删除所述小数点周围不需要的空格。

这让我得到“1 800 55.8”,这更好但不是很好;第一个空格可能存在也可能不存在,或者可能有两个,具体取决于数字的大小 - 空格是原始文档中千位分隔符的替代。

我想将该列转换为适当的两个新列。我尝试使用 stringi::word 来隔离“最后一个单词”,并尝试匹配|从原始列中提取该输出(55.8),留下“1 800”,然后可以对其进行修剪,但我没有知道怎么。也没有与该解决方案结婚 - 愿意学习其他方式。非常感激。

0 投票
0 回答
62 浏览

r - R tabulizer 包的矩阵尺寸列表因相同格式的 PDF 表而异

我在 Mac 上的 R 中的以下 pdf 中使用 Tabulizer 0.2.2 extract_tables。

销售<-“ http://www.greenwichct.org/upload/medialibrary/5cd/Residential-Sales-by-Address-10-10-to-10-15.pdf

测试 <- extract_tables(sales,pages=c(1:10),method="decide")

我相信每一页上的表格都是相同的,但是例如前十页的矩阵结果列表给出了具有 3 个不同维度的矩阵。列有时会连接,例如在 test[[3]] 中与列 1 和 2。

我试过设置区域,指定方法。我四处寻找如何指定列参数,但找不到任何具体的东西。甚至使用了 extract_area(),但结果相同。使用 Tabula 应用程序也存在同样的问题。

任何想法表示赞赏。

0 投票
0 回答
126 浏览

r - 在 R 中从 PDF 中读取表格

我有一个包含许多表格的 PDF,我正在尝试使用 R 将它们解析为更易读的格式。到目前为止,我尝试了两种方法:

  1. 用于pdftools::pdftext()获取文本,然后基本上使用正则表达式手动读取表格(老实说并没有听起来那么糟糕)
  2. using tabulizer::extract_tables(),它以某种方式神奇地为我完成了所有工作(它有点慢但可以忍受)

这两种方法都出奇的好,但仍然存在一些与弄乱列/对齐有关的问题——有时列被合并,有时标题与数据列未对齐,等等。我愿意蛮力争吵数据,但是在我尝试之前,我只是想看看是否有更聪明的方法来做到这一点。

那么,有没有更好的方法从 PDF 中读取表格?

0 投票
1 回答
628 浏览

r - R - Trouble installing tabular package

I'm trying to install the tabular package in order to pull tables from a pdf document. I tried the solution outlined here: Recognize PDF table using R, but I can't actually get all the precursor packages installed. I got rJava installed fine, but when I ran "library(rJava)" I got the following message:

Error : .onLoad failed in loadNamespace() for 'rJava', details: call: inDL(x, as.logical(local), as.logical(now), ...) error: unable to load shared object 'C:/Documents/R/3.3.1/library/rJava/libs/x64/rJava.dll': LoadLibrary failure: %1 is not a valid Win32 application.

In addition: Warning message: package ‘rJava’ was built under R version 3.3.3 Error: package or namespace load failed for ‘rJava’</p>

I was able to install devtools as well, but when I ran "devtools::install_github("ropensci/tabulizer", args="--no-multiarch")", I got the following error message:

Downloading GitHub repo ropensci/tabulizer@master from URL https://api.github.com/repos/ropensci/tabulizer/zipball/master Installing tabulizer "C:/DOCUME~1/R/R-33~1.1/bin/x64/R" --no-site-file --no-environ --no-save --no-restore --quiet CMD \ INSTALL "C:/AppData/Local/Temp/RtmpsteRkU/devtools2ac44b92539b/ropensci-tabulizer-bc195cb" \ --library="C:/Documents/R/R-3.3.1/library" --install-tests --no-multiarch

Not sure what exactly is going on. Thanks in advance for any direction here.

0 投票
0 回答
153 浏览

r - R包tabulizer错误

我正在使用 macOS High Sierra 版本 10.13.6。RStudio 是版本 1.1.456。我想使用 tabulizer 库,但安装失败并出现以下错误消息。在我一个月前重新安装 macOS 系统之前,它曾经可以工作。

到目前为止,我在 Google 上找到的任何东西都没有解决这个问题。有人认为这与我完全不熟悉的 Java 有关。

谁能帮帮我?谢谢!

在此处输入图像描述

0 投票
1 回答
640 浏览

r - R 管道工发布 PDF

我正在尝试使用 R Plumber 通过 HTTP 发布请求访问 PDF,使用制表程序包阅读它,并使用 JSON 格式的 PDF 进行响应。我通过 Postman 将 53kb PDF 发布到我的路线并收到错误消息:

normalizePath 中的错误(path.expand(path)、winslash、mustWork)。

我的 R API 路由代码如下:

当我将 extract_tables() 函数与我正在使用的 PDF 的本地路径一起使用时,它可以完美地用作获取路径。

有人知道如何通过 Plumber 发布 pdf 文件并在函数中访问它吗?

0 投票
0 回答
254 浏览

r - R tabulizer:PDF 编码错误 (?)

我正在尝试使用制表器解析一些历史原油价格数据,并遇到了似乎是编码错误的问题。下面是一个可重现的示例,其中包含我要抓取的文件之一。

pdf_info 除了文件相对较旧外,没有返回任何异常。我尝试将这些作为表格或文本运行,但我得到了不同类型的错误,但文本调用似乎揭示了问题可能出在哪里。

当我作为表格抓取时,定价的第一列没有分隔,插入额外的小数等等。

数据框视图

当我以文本形式毕业时,我可以看到编码字符似乎将其中的一些字符用于循环。

其他几个测试位。首先,我可以将 PDF 渲染为位图,并适当地传输内容。不确定这是否提供信息。

接下来,如果我从 PDF 复制到 Excel,则会重现相同的错误:

Excel 测试

在 Word 中也是如此: 单词测试

非常感谢任何想法或帮助。

安德鲁

0 投票
1 回答
60 浏览

r - 基于正则表达式模式匹配将 PDF 索引为数据帧列表

在使用 tabulizer 和 pdftools 从 pdf 中提取信息时,我有时想根据正则表达式模式匹配索引大量 df 列表。

我想使用 str_detect 返回与模式“养老金”匹配的基础 df 索引。

所需的输出将是:

如何检测底层 df 中的模式,然后返回使用一直很困难的索引。我看到以前的讨论使用循环和 if-then 语句,但使用 purrr 的解决方案似乎更受欢迎。

0 投票
2 回答
1429 浏览

r - R中的Tabulizer包:如何在特定标题后抓取表格

如何从PDF中刮取带有一些标题文本的表格?我正在尝试使用 tabulizer 包。这是从特定页面获取表格的示例(波兰语“公共卫生需求地图”)

这让我在特定页面获得一张桌子。但是我会从网站上刮掉很多这样的 pdf:http : //www.mpz.mz.gov.pl/mapy-dla-30-grup-chorob-2018/,然后是每个疾病都有很多链接的子页面,获取与 rvest 的链接,对于波兰的每个省,我需要在特定的标题字符串之后抓取表格,例如。

Tabela 1.2.2: Struktura zapadalnosci rejestrowanej w zależności od płci, miejsca zamieszkania oraz grupy wiekowej - Choroby układowe tkanki łącznej"

我需要检测 Tabela(...) Struktura zapadalnosci(...)",因为这些表格可能不在同一页面上。非常感谢您提前提供的任何指示和想法。

编辑:在我问了这个问题之后,到目前为止我成功地找到了表格可能所在的页面,可能非常无效: