问题标签 [pdftools]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

79 问题

0 投票

1 回答

35 浏览

java - 我想将 PDF 转换为图像，但我只想要包含所有图像和矢量图形的单个输出图像。我不想要文字

请建议我如何使用 pdfbox 实现这一目标？

我尝试了以下代码：

我附上了我得到的输出

看到这张照片我不想要内容：

[！[看到这张照片我不想要内容][1]][1]

我期待下面的输出，请看这张照片：

[！[见这张照片][2]][2]

2020-08-10T10:15:53.320

0 投票

1 回答

44 浏览

r - R - 在数据框中显示数据

通过以下代码，我使用 pdftools 从 pdf 文件中提取数据：

如何将这些数据显示为 data.frame？

r dataframe pdftools

2020-09-03T20:20:03.603

0 投票

1 回答

409 浏览

r - 将 PDF 表读入 R，其中行的行数不同

我希望将以下 PDF 读入 R 中的一个整洁的数据框中： PDF Table。该表甚至跨越 70 多页。

我擅长阅读每个单元格有一行的表格，但我不确定如何将这些知识扩展到行有不同数量行的情况

任何帮助将非常感激！

r pdf pdftools

2020-09-10T18:11:51.153

0 投票

1 回答

146 浏览

r - 从 R 中包含两列的 PDF 中提取文本

我正在尝试提取公司年度报告的文本。它的设计以两列居多。所以我不知道如何正确提取它，因为在带有 pdftools 包的 RI 中，我提取了第二列第一行旁边的第一列第一行，而不是第一列的第二行。

这是我的代码：

我怎样才能正确地做到这一点？

r pdf text-mining pdftools

2020-09-18T12:03:24.810

0 投票

1 回答

679 浏览

r - 在 R 中使用 pdftools 在字符串后提取特定表

我有几个 pdf，我希望提取股东表。如何指定只有出现在字符串 'TWENTY LARGEST SHAREHOLDERS' 之后的表被提取？

我试过但不太确定功能部分。

r text-mining data-extraction pdftools

2020-10-10T05:23:39.513

0 投票

1 回答

75 浏览

r - 在循环中使用 pdftools 时的错误处理

我正在尝试从多个 pdf 文件中提取某些表格，但并非所有文件都有该表格。即使第一个文件不包含某个表，我如何使用 trycatch 或类似方法跳过并继续下一个文件？

尝试运行时出现以下错误。

r error-handling try-catch pdftools

2020-10-15T00:23:10.320

0 投票

1 回答

509 浏览

r - 将多个PDF读入R中的数据框

我有一个 PDF 文件夹，例如foo1.pdf, foo2.pdf, foo3.pdf。

我想在 Rstudio 中阅读这些 pdf，并为文档名称和相应的文本创建一个包含 2 列的数据框。例如：

到目前为止我没有成功的尝试：

怎么可能做到这一点？

r pdftools

2020-11-04T02:33:50.113

0 投票

0 回答

243 浏览

r - 使用R从pdf中提取图像的方法

有没有办法使用 R 从 pdf 中提取图像并将它们保存到文件夹中？关于其他编程语言有很多类似的问题，显然有一种方法可以在 python 中做到这一点，想知道是否可以在 r https://www.thepythoncode.com/article/extract-pdf-中复制相同的工作python中的图像

r 中有 pdftools 包，但听起来它对图像没有多大帮助，只能读取文本并且有 ocr 选项，我只想提取图像并将它们存储到文件夹中。

我可以尝试使用reticulatepackage 在 r 中使用这个 python 方法，但我无法按照我的意愿循环/映射它。这就是为什么我要问是否有人知道R中的方法。

谢谢你。

r pdf pdftools

2020-11-13T18:06:28.727

0 投票

1 回答

603 浏览

r - 如何更改 tesseract 配置以识别§并在 R 中使用 pdftools::pdf_ocr_text 应用？

我pdftools在 R 中使用从扫描的和基于文本的 PDF 文件中提取文本。一个问题是§性格。tesseract 无法识别这一点。

我查看了以下链接： CRAN tesseract package vignette

类似问题的SO链接

和这个 github 页面

我尝试了以下方法：

我找到了配置文件，tesseract_info()并digits在configs. digits文件内容是这样的：

tessedit_char_whitelist 0123456789.

编辑后看起来像这样：

这根本没有改变任何东西，我仍然无法提取§. 它们仍然显示为8.

第一步失败后，我尝试了以下操作：

这个也失败了。我绝不是 OCR 方面的专家，而 tesseract 在文档方面还有改进的空间。

如何§以正确的方式添加到要识别的字符列表中，以便它适用？

更新

§当我language从参数列表中删除时，以下工作可以识别：

但这一次，我失去了德语变音符号。我不知道如何同时指定语言和 char_whitelist。根据文档，tesseract()接受语言参数和选项参数。但这似乎不起作用。有任何想法吗？

更新： 我尝试在命令行中使用 tesseract（MacOS Catalina 10.15.7）。

我首先将扫描的 PDF 文件转换为图像，然后使用它：

它创建fileToText.txt. 它确实识别§. 所有这些都被正确识别。但是无法正确识别德语变音符号，因为我根本没有指定语言。当我对language参数使用相同的命令时

德语变音符号被正确识别，但§不是。

我更改的digits配置文件在这里：

我的理解是：这不是 R 特有的问题，而是 tesseract 本身发生的。同时设置tessedit_char_whitelist和语言似乎是不可能的，或者我错过了一些可怕的东西。

r ocr tesseract pdftools

2020-12-01T15:33:06.173

0 投票

1 回答

116 浏览

r - 在 R 中清理下载的 pdf 数据集

我已经从这个站点（从表格选项卡）下载了 pdf 文件，并且想要清理 R 中的数据集并将其转换为 csv 或 excel 文件。

我正在使用 pdftools 包并下载了其他必需的包。我想专注于年龄组的数据。到目前为止，我已经通过使用这些代码缩小了数据集的范围。

但是，我得到的数据框包含一个变量上的所有内容。有没有一种方法可以有效地分解数据集并为年龄组设置不同的列？我从该站点下载了 pdf 文件并将其命名为 agegr_1-4-21.pdf。

我得到的输出是

r pdftools

2021-01-16T11:50:31.123

1 2 3 4 5 6 7 8 9 10

问题标签 [pdftools]

Reference