问题标签 [pdftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R查找列表的元素以从pdf中提取表格
我正在尝试使用 pdftools 包从 pdf 中提取数据表。我的源文件在这里:https ://hypo.org/app/uploads/sites/2/2021/11/HYPOSTAT-2021_vdef.pdf 。说,我想从第 170 页的表 20 中提取数据(名义房价的变化)
我使用以下代码:
为了获得正确的表格,我必须手动指出我要提取列表的第 170 个元素(因为表格在第 170 页上)。如果明年在报表中添加一个带有表格的新页面,我将不得不修改代码以提取第 171 个元素。有没有办法以更自动化的方式做到这一点?
基本上,我需要做的是找到包含字符串“名义房价变化”的列表元素。有什么建议怎么做吗?
r - 在 R 中使用制表符精确表
我可以从https://www.nicd.ac.za/diseases-az-index/disease-index-covid-19/surveillance-reports/daily-hospital-surveillance-datcov-report/的许多文件中提取表格。但是,对于许多 PDF,我不能。这是一个这样的案例以及我的玩具代码。
使用它我得到的区域如下
但是,在将这个区域提供给 tabulizer 包的 extract_tables 函数时,我没有得到表格。
我还尝试了以下方法来提取表格,但仍然没有运气!
我在这里想念什么。请指教。
r - R:从 PDF 中提取日期和数字
我真的很难从 NTSB 的数千个 PDF 文件中提取正确的信息(具体是一些日期和数字);这些 PDF 不需要进行 OCRed,每个报告的长度和布局信息几乎相同。
我需要提取事故发生的日期和时间(第一页)以及其他一些信息,例如飞行员的年龄或飞行经验。我尝试过的内容适用于几个文件,但不适用于每个文件,因为我使用的代码写得不好。
我遇到的主要问题是当我试图提取事故的日期和时间时。是否可以通过避免像我在这里所做的那样使用列表来提取确切的信息?
r - pdf_combine() 文件不可搜索
pdf_combine()
是 pdftools 包中一个非常有用的功能,可以将单独的 pdf 合并到一个文档中。
但是,似乎无法使用 Acrobat Reader 搜索组合的 pdf,即使单独的 pdf 文件本身是可搜索的。搜索要么找不到任何东西,要么指出完全错误的词。
我错过了什么还是这是一个基本的限制?
r - 读取 Pdf 文件将文本保存到列中
我正在尝试使用 R 将一些 pdf 文件文本保存到列中。下面是我的代码,其中我在扇区数据 [行,“TextinPdfs”] <- 提到错误的文本中出现错误,如下所示。!分配的数据text
必须与行下标兼容row
。必须分配 x 1 行。x 分配的数据有 43 行。i 行更新需要一个列表值。你需要list()
或as.list()
?
有人可以尽快帮助解决这个问题。
r - 使用 Pdftools 从 R 中读取完整的 PDF(20 多页)
我正在尝试使用以下代码阅读 pdf (20+) 页。但是,当我执行 #-print 1 行时,它会显示 pdf 中的所有文本以及所有页面(20+)。但是,当我执行 #-print 2 时,它只显示最后一页文本。
感谢是否有人可以指导我,纠正问题并帮助阅读所有 pdf 中的所有文本。