问题标签 [pdftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
35 浏览

java - 我想将 PDF 转换为图像,但我只想要包含所有图像和矢量图形的单个输出图像。我不想要文字

请建议我如何使用 pdfbox 实现这一目标?

我尝试了以下代码:

我附上了我得到的输出

看到这张照片我不想要内容:

[![看到这张照片我不想要内容][1]][1]

我期待下面的输出,请看这张照片:

[![见这张照片][2]][2]

0 投票
1 回答
44 浏览

r - R - 在数据框中显示数据

通过以下代码,我使用 pdftools 从 pdf 文件中提取数据:

如何将这些数据显示为 data.frame?

0 投票
1 回答
409 浏览

r - 将 PDF 表读入 R,其中行的行数不同

我希望将以下 PDF 读入 R 中的一个整洁的数据框中: PDF Table。该表甚至跨越 70 多页。

我擅长阅读每个单元格有一行的表格,但我不确定如何将这些知识扩展到行有不同数量行的情况

任何帮助将非常感激!

0 投票
1 回答
146 浏览

r - 从 R 中包含两列的 PDF 中提取文本

我正在尝试提取公司年度报告的文本。它的设计以两列居多。所以我不知道如何正确提取它,因为在带有 pdftools 包的 RI 中,我提取了第二列第一行旁边的第一列第一行,而不是第一列的第二行。

这是我的代码:

我怎样才能正确地做到这一点?

0 投票
1 回答
679 浏览

r - 在 R 中使用 pdftools 在字符串后提取特定表

我有几个 pdf,我希望提取股东表。如何指定只有出现在字符串 'TWENTY LARGEST SHAREHOLDERS' 之后的表被提取?

我试过但不太确定功能部分。

0 投票
1 回答
75 浏览

r - 在循环中使用 pdftools 时的错误处理

我正在尝试从多个 pdf 文件中提取某些表格,但并非所有文件都有该表格。即使第一个文件不包含某个表,我如何使用 trycatch 或类似方法跳过并继续下一个文件?

尝试运行时出现以下错误。

0 投票
1 回答
509 浏览

r - 将多个PDF读入R中的数据框

我有一个 PDF 文件夹,例如foo1.pdf, foo2.pdf, foo3.pdf

我想在 Rstudio 中阅读这些 pdf,并为文档名称和相应的文本创建一个包含 2 列的数据框。例如:

到目前为止我没有成功的尝试:

怎么可能做到这一点?

0 投票
0 回答
243 浏览

r - 使用R从pdf中提取图像的方法

有没有办法使用 R 从 pdf 中提取图像并将它们保存到文件夹中?关于其他编程语言有很多类似的问题,显然有一种方法可以在 python 中做到这一点,想知道是否可以在 r https://www.thepythoncode.com/article/extract-pdf-中复制相同的工作python中的图像

r 中有 pdftools 包,但听起来它对图像没有多大帮助,只能读取文本并且有 ocr 选项,我只想提取图像并将它们存储到文件夹中。

我可以尝试使用reticulatepackage 在 r 中使用这个 python 方法,但我无法按照我的意愿循环/映射它。这就是为什么我要问是否有人知道R中的方法。

谢谢你。

0 投票
1 回答
603 浏览

r - 如何更改 tesseract 配置以识别§并在 R 中使用 pdftools::pdf_ocr_text 应用?

pdftools在 R 中使用从扫描的和基于文本的 PDF 文件中提取文本。一个问题是§性格。tesseract 无法识别这一点。

我查看了以下链接: CRAN tesseract package vignette

类似问题的SO链接

和这个 github 页面

我尝试了以下方法:

  1. 我找到了配置文件,tesseract_info()digitsconfigs. digits文件内容是这样的:

    tessedit_char_whitelist 0123456789.

编辑后看起来像这样:

这根本没有改变任何东西,我仍然无法提取§. 它们仍然显示为8.

  1. 第一步失败后,我尝试了以下操作:

这个也失败了。我绝不是 OCR 方面的专家,而 tesseract 在文档方面还有改进的空间。

如何§以正确的方式添加到要识别的字符列表中,以便它适用?

更新

§当我language从参数列表中删除时,以下工作可以识别:

但这一次,我失去了德语变音符号。我不知道如何同时指定语言和 char_whitelist。根据文档,tesseract()接受语言参数和选项参数。但这似乎不起作用。有任何想法吗?

更新: 我尝试在命令行中使用 tesseract(MacOS Catalina 10.15.7)。

我首先将扫描的 PDF 文件转换为图像,然后使用它:

它创建fileToText.txt. 它确实识别§. 所有这些都被正确识别。但是无法正确识别德语变音符号,因为我根本没有指定语言。当我对language参数使用相同的命令时

德语变音符号被正确识别,但§不是。

我更改的digits配置文件在这里:

我的理解是:这不是 R 特有的问题,而是 tesseract 本身发生的。同时设置tessedit_char_whitelist和语言似乎是不可能的,或者我错过了一些可怕的东西。

0 投票
1 回答
116 浏览

r - 在 R 中清理下载的 pdf 数据集

我已经从这个站点(从表格选项卡)下载了 pdf 文件,并且想要清理 R 中的数据集并将其转换为 csv 或 excel 文件。

我正在使用 pdftools 包并下载了其他必需的包。我想专注于年龄组的数据。到目前为止,我已经通过使用这些代码缩小了数据集的范围。

但是,我得到的数据框包含一个变量上的所有内容。有没有一种方法可以有效地分解数据集并为年龄组设置不同的列?我从该站点下载了 pdf 文件并将其命名为 agegr_1-4-21.pdf。

我得到的输出是

在此处输入图像描述