0

我正在探索几个第三方组件以通过 C# 处理 PDF。这些是 Aspose.pdf.net 和 iTextSharp。以下是有关我正在探索它们的详细信息:

我有一些 PDF 包含文本形式的敏感信息,例如人名、城市等。这些 PDF 需要复制到另一个副本中,但是在创建重复副本时,需要搜索敏感文本并用一些虚拟文本替换。更换对于避免通过任何欺诈手段追踪原始信息至关重要。此外,替换的文本需要编辑。

查找文本预计将支持 RegEx,因为可能存在需要屏蔽的文本变体。

您能否帮助我如何使用 iTextShat 完成此操作。

提前致谢。

4

1 回答 1

1

iTextSharp 能够使用 PdfSweep 模块 ( http://itextpdf.com/itext7/pdfsweep )进行完整的编辑(视觉以及存储在 pdf 中的数据)。为了在文本搜索后进行编辑,您必须:

  1. 从文档中提取文本(可以使用 iText 完成)。
  2. 搜索提取的文本并获取要编辑的文本的位置。(需要您的实施)
  3. 使用这些位置来定义 PdfSweep 必须编辑的位置。(几行代码)

默认情况下,PdfSweep 通过在位置上绘制彩色条来进行可视化编辑,并在内部删除文本和任何图像。虽然在技术上可以使用 iText 用一些虚拟文本填充编辑位置,但其实现存在许多缺陷。

PdfSweep 是 iText7 的闭源模块,您可以联系我们的销售团队以获取有关许可的更多信息。

于 2016-09-02T13:39:22.770 回答