问题标签 [pdf-manipulation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
164 浏览

pdf - 在 pdf 中标记内容

我有一个如下所示的pdf。我想将该段落标记为“段落”。我对此进行了很多搜索,并且有一些方法可以从头开始创建标记的 pdf,或者将 html 内容转换为标记的 pdf,但是我在标记现有 pdf 方面没有成功。

给定坐标,我可以在 pdf 中标记内容。在此示例中,我想将段落标记为段落标记。谢谢。

0 投票
2 回答
58 浏览

pdf - 处理 PDF 文件

我想将 PDF 文件作为文本(postscript)读取,在文件结构中添加新对象并将最终输出另存为新 PDF,但如果我只是复制 PDF PostScript 内容并将其粘贴到新创建的 PDF 文件中(其中encoding='ansi'),该文件不起作用。

我确信这可能是编码问题,但我不确定在处理原始 PostScript 内容后应该怎么做才能获得有效的 PDF 文件格式。

这是一段对我不起作用的代码:

正如我所说,输出 PDF 无效!

0 投票
1 回答
132 浏览

.net - PDF 注释只读 .NET

我有一个以图像形式向 PDF 添加注释的系统。目前,如果用户下载 PDF,他们可以单击注释并进行操作:移动、调整大小、删除...

我想要一种将注释更改为只读或将它们嵌入到 PDF 中的方法,就像它们是 PDF 的一部分一样。

那可能吗?任何人都知道如何使用 .NET 实现这一目标?

0 投票
2 回答
1473 浏览

c# - 如何使用 iTextsharp 和 C# 在不破坏文件的情况下删除/替换 PDF 文件中的图像

我正在尝试将带有 id 的图像插入 PDF 文档,并允许稍后用另一个图像替换它。我的流程如下:

  1. 从客户端获取图像(具有唯一 ID)。
  2. 尝试在 PDF 文档中查找具有相同 ID 的现有图像。
  3. 如果我找到现有图像,请尝试将其删除并放置新图像,或者尝试用新图像替换现有图像。(都试过了)。
  4. 如果我没有找到现有图像,请将图像插入我选择的位置。

我使用 Bruno Lowagie 书中的代码:

问题是每当我删除现有图像或替换它时,我的文档都会损坏。我究竟做错了什么?这是代码:

0 投票
2 回答
431 浏览

pdf - 计算pdf中(Td,TD,Tm,cm,T *)内容流的确切位置?

获取或计算pdf中(Td,TD,Tm,cm,T *)内容流的确切位置?

作为一个人,我能够通过比较来计算(无论是替换最后一个 Td 还是添加到最后一个 Td 或乘以字体大小)标签在 pdf 内容流中的位置,其中字形位于 pdf 和内容流位置值中。但我无法以编程方式计算字形的完美位置。请看屏幕短。

在上图中,左侧框是 pdf ui 字形,右侧框包含相关的内容流。在内容流中,我突出显示了两个 Td 位置。

在第一圈

3.321 -6.475999832 时差

Td 位置应添加到最后的 Td 位置。假设 x1,y1。

Current_x_pos = x1+3.321

当前_y_pos = y1-6.475999832

然后我们可以得到字形“t”的确切位置。

在第二个突出显示的圆圈中,新的 Td 位置(231.544 366.377990 Td)被完全替换为

Current_x_pos = 231.544

当前_y_pos = 366.377990

除此之外,有时父标签是 Tm 在这种情况下,公式可能是这样的

Current_x_pos = x1+(tdx1*font_size)

当前_y_pos = y1+(tdy1*font_size)

当我们需要像上面一样乘法时,有时还要加法。以编程方式我怎么能知道这一点。解析确切的位置?(为乘法添加了新的屏幕短)

有什么帮助吗?谢谢。 在此处输入图像描述 在此处输入图像描述

0 投票
1 回答
81 浏览

pdf - 将图形文本的内容流(由`q`和`Q`组成)转换为适当的内容流

我有一个 pdf,其中 pdf doc 的内容流看起来像 image1。

在此处输入图像描述

但是一旦我在 adobe dc 中打开 pdf 并尝试更改阅读顺序。整个内容流被改变。(请看图2)

在此处输入图像描述

这是源pdf的链接https://drive.google.com/file/d/1V2K3-2GdWG5DuTUv1fyfIIT54en70kI2/view

有没有办法以编程方式做同样的事情(将图形文本的内容流转换为正确的流)

提前致谢 !

0 投票
0 回答
342 浏览

java - 如何删除在 iText 中使用 PdfDocument 对象创建的新 pdf 的边距?

根据我之前的问题,我正在尝试将多个 pdf 页面合并到一个页面中。我能够将多页 pdf 文件转换为合并的 pdf 文件。但默认边距在合并后剪切我的文档。

我也尝试添加 Document 对象。但不知何故,我无法删除保证金。

示例代码

请建议我是否做错了什么,或者是否有任何其他方法可以使用 PdfDocument 对象删除边距。

0 投票
1 回答
376 浏览

pdf-generation - IronPdf 将文本添加到页面末尾插入新页面

我正在尝试操作 pdf,我尝试了一些开源库(例如 pdfSharp、pdfjet),但我无法完成我必须做的事情。因为pdfsharp将它与一个新页面添加到pdf中,或者pdfjet将一个广告放入pdf中。所以,我不能使用这些库。

我必须达到的是:

我必须在 pdf 的最后一页末尾添加一个字符串。如果最后一页有足够的空间放置字符串,则不需要添加新页面,否则可以将字符串拆分或添加新页面到pdf。

这是我尝试过的代码示例;

感谢您的帮助,

0 投票
1 回答
56 浏览

python - PDF 文件处理(打开一个大的 pdf 文件,找到一个关键字,然后保存在哪个页面中找到了,然后将这些页面拆分并合并到一个 pdf 中)

我正在为我的一个朋友做一个项目。我想找到一个在多个页面上的特定关键字,并且它在大型 PDF 文件(40-60 页及以上)的其他位置有重复项,然后将其保存在找到关键字的页面中,然后拆分这些页面从原始 PDF 文件,最后,将它们合并在一起。

我正在考虑使用PDFMinerPyPDF2(我也愿意接受其他建议)

我已经为它的大部分编写代码,但我无法找到一个好的和有效的方法来搜索文件并找到那个关键字,因为这个关键字位于同一个文件中的其他地方,并且使确保我要从原始文件中提取的数据不重复,并且所有数据都已提取。

提前致谢。

0 投票
2 回答
356 浏览

php - 使用 PHP 库将多页 PDF 转换为图像

我已经在 StackOverFlow 和谷歌上搜索了两天,仍然无法找到解决方案。我想要做的是创建一个 PHP 脚本:

  • 将 PDF 上传到我的网站
  • 将文档的每一页转换为单独的图像
  • 显示转换后的图像

大多数提出类似问题的用户都会使用 ImageMagick,但我的完美解决方案是 PHP 库,你知道吗?