3

我有一个源 pdf,我正在通过添加文本对象对其进行修改。我正在使用 PDF 规范中提到的“增量更新”。但是,在使用这种方法添加文本对象时,我犯了一些错误,导致 pdf 在 Adob​​e Reader 11 中无法正确呈现。打开 pdf 并双击它时,添加的文本对象会被删除。我发现这是由于文本注释。

现在我想知道如何使用增量更新添加新的文本对象?如何维护自由文本注释的内容和 RC?

是否可以禁用或删除注释,以便轻松避免我的问题?因为我想要一个简单的 pdf,所以我不想要注释选项。

我正在使用的源 pdf 在这里

添加文本对象后修改的pdf在这里

根据 pdf 规范,我不确定源 pdf 本身是否正确。

4

1 回答 1

7

首先,让我向您展示如果您可以使用一个像样的 PDF 库,事情是多么容易。我以 iTextSharp 为例,但也可以对 PDFBox 或 PDFNet 等其他人进行同样的操作(@Ika 在他的回答中已经提到过):

PdfReader reader = new PdfReader(sourcePdf);
using (PdfStamper stamper = new PdfStamper(reader, targetPdfStream)) {
  Font FONT = new Font(Font.FontFamily.HELVETICA, 12, Font.BOLD, new GrayColor(0.75f));
  PdfContentByte canvas = stamper.GetOverContent(1);
  ColumnText.ShowTextAligned(
    canvas,
    Element.ALIGN_LEFT, 
    new Phrase("Hello people!", FONT), 
    36, 540, 0
  );
}

(源自iText in Action — 第 2 版第 6 章中解释的Webified iTextSharp Example StampText.cs。)

(您选择哪个 PDF 库取决于您的一般要求和可用的许可模型。)

如果尽管此类 PDF 库易于使用,但您仍坚持手动操作,请注意以下几点:

首先,您必须找到要添加内容的页面的 Page 字典。根据 PDF 的类型,这可能已经需要对对象流等进行解压缩,但在您的示例modified1.pdf中这不是必需的:

7 0 obj
  <</Rotate 90
    /Type /Page
    /TrimBox [ 9.54 6.12 585.68 835.88 ]
    /Resources 8 0 R
    /CropBox [ 0 0 595.22 842 ]
    /ArtBox [ 9.54 18.36 585.68 842 ]
    /Contents [ 9 0 R 10 0 R 11 0 R 12 0 R 13 0 R 14 0 R 15 0 R 16 0 R ]
    /Parent 6 0 R
    /MediaBox [ 0 0 595.22 842 ]
    /Annots 17 0 R
    /BleedBox [ 9.54 6.12 585.68 835.88 ]
  >>
endobj 

您会看到对内容流的引用数组。这是您必须添加新页面内容的地方。您可以操作现有流或创建新流并将其添加到该数组中。

(大多数 PDF 都对其内容流进行了压缩。因此,对于一般情况,您必须先解压缩流,然后才能对其进行处理。因此,在我看来,更简单的方法是启动一个新流。)

您选择操作 PDF 中未压缩的最后引用的流 16 0:

16 0 obj
<</Length 37 0 R>>
stream
  S 1 0 0 1 13.183 0 cm 0 0 m
  [...]
  0 10 -10 -0 506.238 342.629 Tm
  .13333 .11765 .12157 scn
  -.0002 Tc
  .0006 Tw
  (the Bank and branch on which cheque is drawn\).)Tj

  /F1 2 Tf
  -15.1279 10.9462 Td
  (abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789~!@#$%^&*aaaaaaaaaaaaa)Tj

  /F2 1 Tf
  015.1279 01.9462 Td
  (ANAabcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789)Tj

  ET
endstream
endobj 

我收集到,您的补充是底部的两个 3 行,它们首先选择一种字体,然后定位插入点,最后打印一组字母。

现在你说你添加了文本 abc..z 和 ABC...Z 只是为了测试。但是 pdf 中没有出现字母 bjkqv 等。第二次添加字母时,问题变得更加明显;这里只显示大写字母“A”和“N”。

添加的字母组

这是因为有问题的字体被嵌入到 PDF 中——字体被嵌入到 PDF 中,以允许没有问题字体的系统上的 PDF 查看器显示 PDF ——但它们是没有完全嵌入,只有该字体所需的字符子集。

让我们寻找仅出现“N”和“A”的字体 F2:

根据页面对象,可以在对象 8 0 中找到页面资源:

8 0 obj
  <</Font <</F1 45 0 R /TT2 46 0 R /F2 47 0 R>>
    /ExtGState <</GS2 48 0 R>>
    /ProcSet [ /PDF /Text ]
    /ColorSpace <</Cs6 49 0 R>>
  >>
endobj 

所以 F2 在 47 0 中定义:

47 0 obj
  <</Subtype /Type1
    /Type /Font
    /Widths [ 722 250 250 250 250 250 250 250 250 250 250 250 250 722 ]
    /Encoding 52 0 R
    /FirstChar 65
    /FontDescriptor 53 0 R
    /ToUnicode 54 0 R
    /BaseFont /ILBPOB+TimesNewRomanPSMT-Bold
    /LastChar 78
  >>
endobj 

在引用的 ToUnicode 映射 54 0 中,您会看到

54 0 obj
<</Length 55 0 R>>stream
  /CIDInit /ProcSet findresource begin 12 dict begin begincmap /CIDSystemInfo <<
  /Registry (AAAAAA+F2+0) /Ordering (T1UV) /Supplement 0 >> def
  /CMapName /AAAAAA+F2+0 def
  /CMapType 2 def
  1 begincodespacerange <41> <4e> endcodespacerange
  2 beginbfchar
  <41> <0041>
  <4e> <004E>
  endbfchar
  endcmap CMapName currentdict /CMap defineresource pop end end
endstream
endobj 

在此映射中,您会看到仅映射了字符代码 0x41 'A' 和 0x4e 'N'

在您的文档中,该字体仅用于在金额表单元格中打印“NA”,没有其他用途。因此,只有这两个字母“N”和“A”被嵌入,这导致您使用该字体添加仅输出这些字母。

因此,要成功地将文本添加到页面,您要么必须检查与页面关联的字体资源以获取它们提供的字形(并限制您对这些字形的添加),要么您必须添加自己的字体资源。

由于编码中字符的存在通常不像这里那样容易看到(ToUnicode 是可选的),我建议您添加自己的字体资源。PDF 规范ISO 32000-1解释了如何做到这一点。

此外,您声明文本的 x 和 y 轴位置未在 pdf 中正确显示。虽然您没有说出确切的意思,但您应该知道,在内容流中,您可以对页面的坐标系应用仿射变换,即拉伸、倾斜、旋转和移动轴。

如果您想使用原始坐标系而不依赖于添加时正确的坐标,则应将初始内容流添加到包含q运算符的页面(以将当前图形状态保存在图形状态堆栈中)和使用Q运算符在新的最终内容流中开始添加(通过从堆栈中删除最近保存的状态并使其成为当前状态来恢复图形状态)。

编辑作为示例,我将顶部的 C# 代码的 Java 等效项应用到您的modified1.pdf并激活了附加模式。结果更改或添加了以下对象:

页面对象 7 0 已更新:

7 0 obj
  <</CropBox[0 0 595.22 842]
    /Parent 6 0 R
    /Contents[69 0 R 9 0 R 10 0 R 11 0 R 12 0 R 13 0 R 14 0 R 15 0 R 16 0 R 70 0 R]
    /Type/Page
    /Resources<<
      /ExtGState<</GS2 48 0 R>>
      /ProcSet [/PDF /Text /ImageB /ImageC /ImageI]
      /ColorSpace<</Cs6 49 0 R>>
      /Font<</F1 45 0 R/F2 47 0 R/TT2 46 0 R/Xi0 68 0 R>>
    >>
    /MediaBox[0 0 595.22 842]
    /TrimBox[9.54 6.12 585.68 835.88]
    /BleedBox[9.54 6.12 585.68 835.88]
    /Annots 17 0 R
    /ArtBox[9.54 18.36 585.68 842]
    /Rotate 90
  >>
endobj 

如果您与以前的版本进行比较,您会看到

  • 添加了两个新的内容流,开头为 69 0,结尾为 70 0;
  • 资源不再是间接对象,而是直接包含在此处;
  • 这些资源在 68 0 处包含一个新的字体资源 Xi0。

现在让我们看看添加的对象。

这是 Helvetica-Bold 的字体资源,名为 Xi0,位于 68 0:

68 0 obj
  <</BaseFont/Helvetica-Bold
    /Type/Font
    /Encoding/WinAnsiEncoding
    /Subtype/Type1
  >>
endobj 

非嵌入式,标准14字体资源一点都不复杂……

现在有额外的内容流。iText 确实会压缩它们,但我会在此处以未压缩状态显示它们:

69 0 obj
<</Length 1>>stream
  q
endstream
endobj
70 0 obj
<</Length 106>>stream 
  Q
  q
  0 1 -1 0 595.22 0 cm
  q
  BT
  1 0 0 1 36 540 Tm
  /Xi0 12 Tf
  0.75 g
  (Hello people!)Tj
  0 g
  ET
  Q
  Q
endstream
endobj 

因此,新的内容流在开始时存储当前图形状态,最后的新内容流检索存储的状态,更改坐标系、文本插入位置、选择字体、字体大小和填充颜色,最后打印一个字符串。

于 2013-03-04T09:29:57.457 回答