问题标签 [pdftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
53 浏览

r - pdftools::pdf_text 无法识别所有空格

我正在使用 R 并从 pdf 文件中提取冬季两项结果。作为这个过程的开始,我一直在使用 pdf_text 函数(来自 pdftools 包),它在大多数情况下都可以正常工作。但是,有些文件中的一些空格似乎消失了。这是一个例子:

pdf 文件的摘录显示表现良好(绿色)和表现不佳(红色)的斑点。

例子

绿色的转换为“70 0”,但红色的转换为“70”。可以通过将它们复制并粘贴到文本编辑器来检查它们是否有空间。快速浏览一下,当第一个数字(拍摄时间排名)只有一位时,就会出现问题。

什么可能导致这种行为,是否有简单的解决方法?

0 投票
2 回答
62 浏览

r - R查找列表的元素以从pdf中提取表格

我正在尝试使用 pdftools 包从 pdf 中提取数据表。我的源文件在这里:https ://hypo.org/app/uploads/sites/2/2021/11/HYPOSTAT-2021_vdef.pdf 。说,我想从第 170 页的表 20 中提取数据(名义房价的变化)

我使用以下代码:

为了获得正确的表格,我必须手动指出我要提取列表的第 170 个元素(因为表格在第 170 页上)。如果明年在报表中添加一个带有表格的新页面,我将不得不修改代码以提取第 171 个元素。有没有办法以更自动化的方式做到这一点?

基本上,我需要做的是找到包含字符串“名义房价变化”的列表元素。有什么建议怎么做吗?

0 投票
0 回答
22 浏览

r - 在 R 中使用制表符精确表

我可以从https://www.nicd.ac.za/diseases-az-index/disease-index-covid-19/surveillance-reports/daily-hospital-surveillance-datcov-report/的许多文件中提取表格。但是,对于许多 PDF,我不能。这是一个这样的案例以及我的玩具代码。

使用它我得到的区域如下

但是,在将这个区域提供给 tabulizer 包的 extract_tables 函数时,我没有得到表格。

我还尝试了以下方法来提取表格,但仍然没有运气!

我在这里想念什么。请指教。

0 投票
4 回答
79 浏览

r - 从 R 中的换行文本创建表格

编辑:

从基于名为 a 的变量的文本中,我想获得一个表格,其中将展开描述单元格。

我想要的结果:

在此处输入图像描述

0 投票
1 回答
41 浏览

r - R:从 PDF 中提取日期和数字

我真的很难从 NTSB 的数千个 PDF 文件中提取正确的信息(具体是一些日期和数字);这些 PDF 不需要进行 OCRed,每个报告的长度和布局信息几乎相同。

我需要提取事故发生的日期和时间(第一页)以及其他一些信息,例如飞行员的年龄或飞行经验。我尝试过的内容适用于几个文件,但不适用于每个文件,因为我使用的代码写得不好。

我遇到的主要问题是当我试图提取事故的日期和时间时。是否可以通过避免像我在这里所做的那样使用列表来提取确切的信息?

0 投票
1 回答
47 浏览

r - 从多个 PDF 文件中提取文本到结构化数据表

我是这个平台的新手,希望有人可以帮助我。

我已经使用 pdftools 库将一些 pdf 文件导入 Rstudio。现在我想制作这个文本的结构化列。我似乎无法使结构正确。

这是我导入的一个添加文件的示例。我想在数据表中制作黄色阴影线。

在此处输入图像描述

这是我最终想要的结果。

在此处输入图像描述

现在我已经输入了下面的代码,但我无法将它放入数据表中。

这是我得到的结果:

在此处输入图像描述

有谁知道解决这个问题的最简单方法?

0 投票
0 回答
17 浏览

r - pdf_combine() 文件不可搜索

pdf_combine()是 pdftools 包中一个非常有用的功能,可以将单独的 pdf 合并到一个文档中。

但是,似乎无法使用 Acrobat Reader 搜索组合的 pdf,即使单独的 pdf 文件本身是可搜索的。搜索要么找不到任何东西,要么指出完全错误的词。

我错过了什么还是这是一个基本的限制?

0 投票
0 回答
18 浏览

r - 读取 Pdf 文件将文本保存到列中

我正在尝试使用 R 将一些 pdf 文件文本保存到列中。下面是我的代码,其中我在扇区数据 [行,“TextinPdfs”] <- 提到错误的文本中出现错误,如下所示。!分配的数据text必须与行下标兼容row。必须分配 x 1 行。x 分配的数据有 43 行。i 行更新需要一个列表值。你需要list()as.list()

有人可以尽快帮助解决这个问题。

0 投票
0 回答
17 浏览

r - 使用 Pdftools 从 R 中读取完整的 PDF(20 多页)

我正在尝试使用以下代码阅读 pdf (20+) 页。但是,当我执行 #-print 1 行时,它会显示 pdf 中的所有文本以及所有页面(20+)。但是,当我执行 #-print 2 时,它只显示最后一页文本。

感谢是否有人可以指导我,纠正问题并帮助阅读所有 pdf 中的所有文本。