“pdftools”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

74 浏览

r - 申请R中文件夹中的pdf文件

我想阅读桌面上的所有 .pdf，但是当我输入下面的代码时，它显示

“01_motivation_jason.pdf”是我桌面上的 pdf 文件。感谢您的友好回应。

r pdf lapply pdftools

2020-03-13T09:52:44.057

0 投票

2 回答

70 浏览

r - 如何删除“|” 不从 R 中的列表中留出空间

我正在使用 pdf 工具通过首先转换为 png 来从扫描文件中提取数据。由于pdf工具是从png读取的，因此无缘无故出现了一些标点符号。除了“|”之外，我可以删除其中的大部分。

这是我的数据：

我希望我的数据可以是这样的：

从附图中可以看出，“|” 改变了我的数据结构，我不能简单地从第二列读取数据。我想要的是删除“|” 元素。然后其余元素可以向前移动。您还可以找到附件中的文件。感谢您的帮助。

r tesseract pdftools

2020-03-23T23:16:57.580

0 投票

1 回答

333 浏览

image-processing - 使用 Tesseract 从 png 无法识别文本

我必须从通过 URL 上传的 pdf 中提取数据。pdf 是 image/.png 格式，因此在使用 tesseract 包时，很少有行无法识别。

编码：

实际输出将产品列表及其价格读取为：

预期的输出应该是：

我已经尝试过多次更改 dpi 参数的值，但这并没有太大帮助。提前致谢！

image-processing ocr tesseract pdftools propensity-score-matching

2020-04-06T07:13:46.523

0 投票

0 回答

174 浏览

r - 在 R 中读取固定宽度的多行文件

我有来自我正在读入 R 的 PDF 文件的数据。

当我用这个方法读入它时，会返回一个字符向量。给定列的多行信息分布在不同的行上（并非每个观察的所有列都有数据。

下面是一个可重现的示例：

我正在尝试使用read_fwfwith，fwf_widths因为我读到它可以处理多行输入，如果你给出多行记录的宽度。

我通过在控制台nchar中输入我在该列中看到的最长字符串来确定大小。

使用fwf_widths我可以通过在参数中定义 10 个字节来获取日期列width =，但是对于 NAME 列，如果我将其设置为 24 个字节，它会返回串联的列而不是行拆分以解释多行，然后级联到另一个列现在有错误的数据，其余的在空间用完时被删除。

最终这是所需的输出：

我想看看：

如何fwf_widths识别多行文本和缺失的列？
有没有更好的方法来读取 pdf 文件来解释多行值和缺失列？（我正在关注本教程，但它似乎有一个更结构化的 pdf 文件）

r readr pdftools

2020-04-26T22:16:16.033

0 投票

0 回答

393 浏览

pdf - 通过 Itext 5.5.5 签署文档时不符合 PDF/A

我正在将 PDF 转换为 PDF/A。我已经通过付费 PDFTools 库进行了此转换，我将转换结果放在此页面上，该页面负责验证它是否符合 PDA/A 标准https://www.pdf-online.com/osa/ validate.aspx 验证表明它符合标准。转换后，PDF 将使用 Itext 5.5.5 库进行签名，但是，如果我再次使用验证器，则 PDF/A 标准不再有效。验证器上显示的错误如下：

签名时，将有关数字签名的信息（例如印章）添加到文档中；正是由于这个原因，它不再符合标准。从消除这些错误开始，我已经使用以下代码消除了 Helvetica 字体错误：

但是，我并没有消除这两个错误：

颜色空间的错误，我尝试使用以下代码消除它，但根本没有帮助，因为当我再次进行验证时它会不断收到错误。

我希望您能帮助我了解如何消除错误以使其符合 PDF/A 标准，或者是否有其他替代方法可以让我转换为 PDF/A，然后使用 Itext 5.5.5 库对其进行签名。

我很感激你能给我的帮助。谢谢

更新

这是我用来使用 Itext 5.5.5 库签署文档的代码。

更新 2

我尝试将 PdfStamper 更改为 PdfAStamper，但是当我尝试签署文档时，它返回以下错误：

更新 3

我将 itext 库从 5.5.5 更新到 5.5.13.1，效果更好。

如果我使用 PdfStamper，我可以签署文档，但是当我使用 PDF/A 验证器时，它会返回以下错误：

错误提示：“名称对象必须是 UTF-8 编码的。” 不再出现。

另外，我尝试使用 PdfStamper。当我尝试签署文件时，它会返回与以前不同的异常。这是新的例外：

pdf itext pdfa pdftools

2020-06-15T15:17:00.100

0 投票

1 回答

788 浏览

bash - 递归（许多子目录）查找pdf文件并合并为一个pdf文件（linux，bash）

令人惊讶的是，我从同一个目录中看到了许多有关如何执行此操作的帮助页面。那些递归使用的似乎对我不起作用（下面的尝试），或者需要我不想使用的复杂性，因为我不了解它们（甚至比这些更糟糕）。

总而言之，我将 pdf 分散在许多子目录中，并希望浏览每个子目录并将 pdf 合并成一个大 pdf。

这些主要来自：

https://unix.stackexchange.com/questions/298031/compress-all-pdf-files-recursively

将多个 PDF 文件合并/转换为一个 PDF

第一次尝试：（这很好用 - 但只能在目录中）：

第二次尝试：

第三次尝试：

第四次尝试：

第五次尝试（似乎最成功，虽然输出文件只有第一个文件的页面）：

find .... {} \;我正在考虑与左右的差异，find .... {} +所以我也尝试了这个，

第六次尝试：

这产生了一个空白页。

我很清楚，我无法连接文件 - 可能使用find -exec命令，并且各种工具都没有问题......

编辑

我想我可以做一个两步程序，

但我想要一个单线，但更重要的是知道为什么我用find错了......

编辑 2

我真的只想要每个文件的第一页，但这没什么大不了的。

bash find exec pdftools pdfjam

2020-06-20T19:22:18.940

0 投票

2 回答

265 浏览

r - 如何使输出文件名与 R 中的输入文件名完全相同。R 中 pdfconverter 中的文件名格式应该是什么

我尝试使用 pdftools-library 中的“pdf_convert”函数将 pdf 的第一页输出为 png。我得到了 png，但输出文件名具有“图像（页码）.png”。如何获得与输入文件名完全相同的输出文件 Pdf 名称：- beer&cider_2bay_x_4shelf_londis_cluster1.pdf Png 名称：- beer&cider_2bay_x_4shelf_londis_cluster1_1.png

r filenames pdftools

2020-07-16T15:35:30.227

0 投票

0 回答

99 浏览

r - 从多页PDF到DataFrame R

我想创建一个包含 50 页的 pdf 的完整数据框。通过删除标题，我能够仅从一页生成一个数据框，但现在我需要为整个 50 页生成一个数据框，而忽略标题。这就是我所拥有的，文件看起来像这样。关于如何实现这一目标的任何帮助或建议？

r merge pdftools

2020-08-06T05:07:44.120

0 投票

1 回答

489 浏览

r - 如何在 R 中提取杂乱 PDF 的特定部分？

我需要提取大量 PDF 文档的特定部分。PDF 是包含各种数字、字母和其他信息的大而杂乱的报告。这些文件的长度不同，但它们之间具有统一的内容和部分。这些文档有一个目录，其中包含部分名称。例如

我可以毫无问题地阅读它们并对其进行整体分析，但我只需要提取"Item 1A. Risk Factors"和"Item 1B. Unresolved Staff Comments"之间的文本。我使用了 pdftools、tm、quanteda 和 readtext 包 这是我用来读入文档的代码部分。我创建了一个放置我的 PDF 的目录并将其命名为“PDF”和另一个目录，R 将在其中放置转换为“.txt”文件的位置。

然后我使用“list.files”函数创建一个文件列表。

之后，我继续创建一个提取文件名的函数。

在这一步之后，我卡住了，不知道如何继续。我不确定在读取数据时是否应该尝试提取感兴趣的部分，因此，我想我将不得不与我创建函数的块搏斗—— f <- gsub("(.*)/([^/]*).pdf", "\\2", filename)？我为这些问题道歉，但我是在自学。我还尝试在一个文件而不是语料库上使用以下代码：

但这对我没有任何帮助。

r pdf text nlp pdftools

2020-08-06T14:19:01.500

0 投票

1 回答

58 浏览

r - 添加循环以读取多个pdf页面时R中的语法错误

谁能帮我找出我在这段代码中的错误在哪里？这就是我得到的：“错误：“}”中的意外'}'”

如果我尝试只运行循环下的块，一切都很好，但我需要在 50 页中处理它，然后合并。

r dataframe pdftools

2020-08-06T22:35:54.640

问题标签 [pdftools]

Reference