问题标签 [pdftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - pdftools::pdf_text() 在文件中读取错误
我在使用 pdftools::pdf_text() 函数在 pdf 文件中读取 R/Rstudio 时遇到问题。
我在读取 csv 文件时没有遇到此问题:
我相信这个问题与我使用公司计算机的事实有关,并且我的文件不再保存在我的实际机器(桌面或文档文件夹)上,而是直接保存到公司网络共享驱动器。
关于解决方法的任何想法?
r - 我有两组来自不同文件夹的 pdf,我根据相同的名称作为一组加入,并在第一个 pdf 组的同一文件夹中输出
我有两个文件夹目录
文件夹 1 包含文件
文件夹 2 包含文件
如果文件夹 1 和 2 中的 pdf 共享前 6 个数字,那么我想加入它们并创建一个directory1
名为的新文件
r - 从 Pdf R Tabulizer 中提取表格时出现空字符
我一直在尝试从单个 pdf 文件中提取大量表并将它们组合成 R 中的一个。我现在的问题是,当使用extract_tables()
某些表时读取没有问题,有些有或多或少的行和一些出现为空。Pdf 文件中的表格具有相同的行,但列数不同。我一直在使用 pdftools 和 tabulizer 的组合来做到这一点。
我的问题是,我从 R 获得的列表元素有一些字符显示为空,而一些字符则更改了行号,因此我无法将它们与 cbind 结合使用。我不确定这是为什么。我检查了pdf,数据似乎是一样的。我可以选择文本等。所以我不知道问题是什么以及如何解决它。有谁知道为什么exctract_tables()
不挑选那些表?
澄清一下: pdf 文件包含 800 多个 pdf 表格,它们的格式类似于:
标准 | 汉诺威 | 波茨坦 |
---|---|---|
人口 | 400 | 300 |
男士 | 199 | 120 |
女性 | 201 | 180 |
但是,这些表格可能会显示不同数量的城市。行相同,但列不同。
当我运行代码的第一部分时exctract_tables()
,我得到一个字符向量列表,如下所示:
这意味着第三个表显示为空。我检查了该文件,它看起来和其他所有文件一样,我可以在其中标记文本,所以我不明白为什么制表器不选择它。有人知道为什么吗?由于我有大量表,我真的很想提取所有表并将它们自动附加到另一个表。到目前为止,我唯一能想到的其他解决方案是检索错误编号的表格列表并手动提取它们。
r - 将扫描的 PDF 转换为可搜索的 PDF(在 R 中)
tesseract
我正在尝试使用andpdftools
包将一系列扫描的 PDF 转换为可搜索的 PDF 。我已经完成了两个步骤。现在我需要写回可搜索的pdf。
- 阅读扫描的 PDF
- 运行 OCR
- 写回可搜索的 PDF
或者,我可以在 R for Windows 中调用另一个包或命令行工具吗?
r - 将数据框中的值附加到在 for 循环中创建的列表
*编辑:感谢 Martin 和一点时间和精力,我能够在需要的地方获得代码。丑吗?是的,但它的工作方式现在对我有用。有关如何清理它并使其更有效的任何提示都会非常有帮助。
使用数据框trace_list
,我试图将值附加Title
到Year
for 循环中每个列表的输出中。以下代码在第 10 页打开每个州的 PDF 链接,提取城市数据(范围为 1-12 个城市)。清理/整理数据,并在收集每个 PDF 的数据后将其存储在要绑定的列表中。现在它只提取城市名称和一个数值。
我遇到的麻烦是将'trace_list'中的'Title'和'Year'中的值分配给循环输出。预期结果如下:
城市 | 数数 | 状态 | 年 |
---|---|---|---|
伯明翰 | 100 | 阿拉巴马州 | 2019 |
费尔班克斯 | 10 | 阿拉斯加州 | 2018 |
我不完全确定如何开始这样做,并且正在寻求帮助。非常感谢任何有关如何清理代码的建议。
r - 不带表格和脚注的多列 PDF 文本
我在研究中处理 PDF,并为一些文本数据编写了 R 刮板。一切正常,我可以通过以下方式读取数据:
另外我想通过按字体大小过滤来排除表格和脚注
这适用于前两页。但是,第三页有两列。因此,文本组合为假。有什么简单的解决方法吗?
我看到使用 R 从两列 PDF 中提取文本,但该功能只是修复 pdf_text 输出并且pdf_data
我认为不能与它一起使用?
r - 我是否需要使用 RSelenium 来下载这些 PDF?
我正在尝试使用 rvest 和 pdftools 浏览此页面并下载 PDF。我在使用 CSS 选择器执行此操作时遇到问题,想知道这是否需要 webdriver?
此外,作为一个初学者的 R 用户,在 R 中使用 webdriver 来执行此操作是否足够容易?
r - 如何在 Debian 中安装 poppler 0.73.0 和 pdftools?
我一直在不知疲倦地尝试在我的 Debian(9.13 拉伸)机器上安装更新版本的 poppler。即使我能够编译,由于某种原因安装 pdftools 以错误结束。我将不胜感激给予的任何帮助
这是我到目前为止所做的,根据这些说明
以上回报
然后我执行
echo "export R_LD_LIBRARY_PATH=\$R_LD_LIBRARY_PATH:/usr/local/lib" >> .bashrc
它什么都不返回
然后我转到我的 R 控制台并运行失败的 pdftools 包安装
r - 如何使用 R 更改 tesseract 的页面分割方法 (PSM)?
我想使用 tesseract 将扫描的 PDF 文档读入 R。一般来说,这已经很好地工作了,但是当文档具有表结构时我会遇到问题。经过一段时间的研究,我发现有一个参数可以设置页面分割方法(PSM)。实际上,默认值是为书页设计的,因此更改此参数应该会提高性能。
https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html#page-segmentation-method
现在我想设置这个 PSM 参数,但我不知道在哪里可以找到它。大多数说明和教程都是针对 Python 的,但对于我的项目,我使用 R。我已经读过您可以将命名列表传递给 options 参数,但我找不到合适的方法。
您的帮助将不胜感激,我不知道该去哪里找。
提前致谢!