问题标签 [pdftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
74 浏览

r - 申请R中文件夹中的pdf文件

我想阅读桌面上的所有 .pdf,但是当我输入下面的代码时,它显示

“01_motivation_jason.pdf”是我桌面上的 pdf 文件。感谢您的友好回应。

0 投票
2 回答
70 浏览

r - 如何删除“|” 不从 R 中的列表中留出空间

我正在使用 pdf 工具通过首先转换为 png 来从扫描文件中提取数据。由于pdf工具是从png读取的,因此无缘无故出现了一些标点符号。除了“|”之外,我可以删除其中的大部分。

这是我的数据:

我希望我的数据可以是这样的:

从附图中可以看出,“|” 改变了我的数据结构,我不能简单地从第二列读取数据。我想要的是删除“|” 元素。然后其余元素可以向前移动。您还可以找到附件中的文件。感谢您的帮助。

0 投票
1 回答
333 浏览

image-processing - 使用 Tesseract 从 png 无法识别文本

我必须从通过 URL 上传的 pdf 中提取数据。pdf 是 image/.png 格式,因此在使用 tesseract 包时,很少有行无法识别。

编码:

实际输出将产品列表及其价格读取为:

预期的输出应该是:

我已经尝试过多次更改 dpi 参数的值,但这并没有太大帮助。提前致谢!

0 投票
0 回答
174 浏览

r - 在 R 中读取固定宽度的多行文件

我有来自我正在读入 R 的 PDF 文件的数据。

当我用这个方法读入它时,会返回一个字符向量。给定列的多行信息分布在不同的行上(并非每个观察的所有列都有数据。

下面是一个可重现的示例:

我正在尝试使用read_fwfwith,fwf_widths因为我读到它可以处理多行输入,如果你给出多行记录的宽度。

我通过在控制台nchar中输入我在该列中看到的最长字符串来确定大小。

使用fwf_widths我可以通过在参数中定义 10 个字节来获取日期列width =,但是对于 NAME 列,如果我将其设置为 24 个字节,它会返回串联的列而不是行拆分以解释多行,然后级联到另一个列现在有错误的数据,其余的在空间用完时被删除。

最终这是所需的输出:

我想看看:

  1. 如何fwf_widths识别多行文本和缺失的列?
  2. 有没有更好的方法来读取 pdf 文件来解释多行值和缺失列?(我正在关注本教程,但它似乎有一个更结构化的 pdf 文件)
0 投票
0 回答
393 浏览

pdf - 通过 Itext 5.5.5 签署文档时不符合 PDF/A

我正在将 PDF 转换为 PDF/A。我已经通过付费 PDFTools 库进行了此转换,我将转换结果放在此页面上,该页面负责验证它是否符合 PDA/A 标准https://www.pdf-online.com/osa/ validate.aspx 验证表明它符合标准。转换后,PDF 将使用 Itext 5.5.5 库进行签名,但是,如果我再次使用验证器,则 PDF/A 标准不再有效。验证器上显示的错误如下:

签名时,将有关数字签名的信息(例如印章)添加到文档中;正是由于这个原因,它不再符合标准。从消除这些错误开始,我已经使用以下代码消除了 Helvetica 字体错误:

但是,我并没有消除这两个错误:

颜色空间的错误,我尝试使用以下代码消除它,但根本没有帮助,因为当我再次进行验证时它会不断收到错误。

我希望您能帮助我了解如何消除错误以使其符合 PDF/A 标准,或者是否有其他替代方法可以让我转换为 PDF/A,然后使用 Itext 5.5.5 库对其进行签名。

我很感激你能给我的帮助。谢谢

更新

这是我用来使用 Itext 5.5.5 库签署文档的代码。

更新 2

我尝试将 PdfStamper 更改为 PdfAStamper,但是当我尝试签署文档时,它返回以下错误:

更新 3

我将 itext 库从 5.5.5 更新到 5.5.13.1,效果更好。

如果我使用 PdfStamper,我可以签署文档,但是当我使用 PDF/A 验证器时,它会返回以下错误:

错误提示:“名称对象必须是 UTF-8 编码的。” 不再出现。

另外,我尝试使用 PdfStamper。当我尝试签署文件时,它会返回与以前不同的异常。这是新的例外:

0 投票
1 回答
788 浏览

bash - 递归(许多子目录)查找pdf文件并合并为一个pdf文件(linux,bash)

令人惊讶的是,我从同一个目录中看到了许多有关如何执行此操作的帮助页面。那些递归使用的似乎对我不起作用(下面的尝试),或者需要我不想使用的复杂性,因为我不了解它们(甚至比这些更糟糕)。

总而言之,我将 pdf 分散在许多子目录中,并希望浏览每个子目录并将 pdf 合并成一个大 pdf。

这些主要来自:

https://unix.stackexchange.com/questions/298031/compress-all-pdf-files-recursively

将多个 PDF 文件合并/转换为一个 PDF

第一次尝试:(这很好用 - 但只能在目录中):

第二次尝试:

第三次尝试:

第四次尝试:

第五次尝试(似乎最成功,虽然输出文件只有第一个文件的页面):

find .... {} \;我正在考虑与左右的差异,find .... {} +所以我也尝试了这个,

第六次尝试:

这产生了一个空白页。

我很清楚,我无法连接文件 - 可能使用find -exec命令,并且各种工具都没有问题......

编辑

我想我可以做一个两步程序,

但我想要一个单线,但更重要的是知道为什么我用find错了......

编辑 2

我真的只想要每个文件的第一页,但这没什么大不了的。

0 投票
2 回答
265 浏览

r - 如何使输出文件名与 R 中的输入文件名完全相同。R 中 pdfconverter 中的文件名格式应该是什么

我尝试使用 pdftools-library 中的“pdf_convert”函数将 pdf 的第一页输出为 png。我得到了 png,但输出文件名具有“图像(页码).png”。如何获得与输入文件名完全相同的输出文件 Pdf 名称:- beer&cider_2bay_x_4shelf_londis_cluster1.pdf Png 名称:- beer&cider_2bay_x_4shelf_londis_cluster1_1.png

0 投票
0 回答
99 浏览

r - 从多页PDF到DataFrame R

我想创建一个包含 50 页的 pdf 的完整数据框。通过删除标题,我能够仅从一页生成一个数据框,但现在我需要为整个 50 页生成一个数据框,而忽略标题。这就是我所拥有的,文件看起来像这样。关于如何实现这一目标的任何帮助或建议?

0 投票
1 回答
489 浏览

r - 如何在 R 中提取杂乱 PDF 的特定部分?

我需要提取大量 PDF 文档的特定部分。PDF 是包含各种数字、字母和其他信息的大而杂乱的报告。这些文件的长度不同,但它们之间具有统一的内容和部分。这些文档有一个目录,其中包含部分名称。例如

我可以毫无问题地阅读它们并对其进行整体分析,但我只需要提取"Item 1A. Risk Factors""Item 1B. Unresolved Staff Comments"之间的文本。我使用了 pdftools、tm、quanteda 和 readtext 包 这是我用来读入文档的代码部分。我创建了一个放置我的 PDF 的目录并将其命名为“PDF”和另一个目录,R 将在其中放置转换为“.txt”文件的位置。

然后我使用“list.files”函数创建一个文件列表。

之后,我继续创建一个提取文件名的函数。

在这一步之后,我卡住了,不知道如何继续。我不确定在读取数据时是否应该尝试提取感兴趣的部分,因此,我想我将不得不与我创建函数的块搏斗—— f <- gsub("(.*)/([^/]*).pdf", "\\2", filename)?我为这些问题道歉,但我是在自学。我还尝试在一个文件而不是语料库上使用以下代码:

但这对我没有任何帮助。

0 投票
1 回答
58 浏览

r - 添加循环以读取多个pdf页面时R中的语法错误

谁能帮我找出我在这段代码中的错误在哪里?这就是我得到的:“错误:“}”中的意外'}'”

如果我尝试只运行循环下的块,一切都很好,但我需要在 50 页中处理它,然后合并。