我正在寻找从 pdf 中删除/删除所有文本的解决方案。我已经使用 iTextSharp 一段时间了,使用它从 pdf 中提取文本很容易(不使用 OCR)。但是我找不到删除文本的选项。
坦率地说,这个解决方案对我不起作用。
page.GetAsArray(PdfName.CONTENTS);
为我返回 null,在使用PdfName.Text
和我尝试过的其他一些时也是如此。
使用的库并不重要,我只是认为 iTextsharp 应该能够做到这一点。但是,如果有其他(免费)解决方案,请带上它
编辑:只是为了弄清楚为什么我要从 pdf 中删除所有文本
我想减小 pdf 的大小。我通过降低 pdf 中图像的分辨率来做到这一点。然而,在很多情况下,矢量图占据了大部分空间。所以我想到了以下内容:删除所有文本,而不是将剩余的 pdf(只有图像和矢量)转换为位图(jpeg)。之后,我再次将文本粘贴在上面。另一种选择是使文本不可见,但我认为这并不容易。