-1

我有一些从 pdf 文件中提取所有附件的 C# 代码。它工作得很好,即使它是附加文档级别或作为文件注释。

但是,如果我对这些 pdf 文件进行数字签名(和时间戳),附件的类型会从注释(或文件附件)变为“小部件”或其他内容。我不是 pdf 专家,如果 pdf 已签名,我找不到任何方法来提取附件。

任何帮助表示赞赏!

[编辑]

无签名样本:samplepdf_notsigned.pdf

带签名的样本(使用 SetaPDF-Signer API 签名):samplepdf_signed.pdf

代码块如下:

/*
 * annotations
 */
iTextSharp.text.pdf.PdfReader reader = new iTextSharp.text.pdf.PdfReader("samplepdf_annotations.pdf");
for (int i = 1; i <= reader.NumberOfPages; i++)
{
    iTextSharp.text.pdf.PdfArray array = reader.GetPageN(i).GetAsArray(iTextSharp.text.pdf.PdfName.ANNOTS);
    if (array == null) continue;
    for (int j = 0; j < array.Size; j++)
    {
        iTextSharp.text.pdf.PdfDictionary annot = array.GetAsDict(j);
        if (iTextSharp.text.pdf.PdfName.FILEATTACHMENT.Equals(annot.GetAsName(iTextSharp.text.pdf.PdfName.SUBTYPE)))
        {
            iTextSharp.text.pdf.PdfDictionary fs = annot.GetAsDict(iTextSharp.text.pdf.PdfName.FS);
            iTextSharp.text.pdf.PdfDictionary refs = fs.GetAsDict(iTextSharp.text.pdf.PdfName.EF);
            foreach (iTextSharp.text.pdf.PdfName name in refs.Keys)
            {
                // I CAN GET THE ATTACHMENT HERE
                string filename = fs.GetAsString(name).ToString();
                byte[] binary = iTextSharp.text.pdf.PdfReader.GetStreamBytes((iTextSharp.text.pdf.PRStream)refs.GetAsStream(name));
            }
        }
        else
        {
            iTextSharp.text.pdf.PdfDictionary fs = annot.GetAsDict(iTextSharp.text.pdf.PdfName.FS);
            iTextSharp.text.pdf.PdfDictionary refs = fs.GetAsDict(iTextSharp.text.pdf.PdfName.EF);
            foreach (iTextSharp.text.pdf.PdfName name in refs.Keys)
            {
                // I CAN GET THE ATTACHMENT HERE
                string filename = fs.GetAsString(name).ToString();
                byte[] binary = iTextSharp.text.pdf.PdfReader.GetStreamBytes((iTextSharp.text.pdf.PRStream)refs.GetAsStream(name));
            }
        }
    }
} 

/*
 * embedded level
 */
iTextSharp.text.pdf.PdfReader reader = new iTextSharp.text.pdf.PdfReader("samplepdf_embedded.pdf");
iTextSharp.text.pdf.PdfDictionary root = reader.Catalog;
iTextSharp.text.pdf.PdfDictionary documentnames = root.GetAsDict(iTextSharp.text.pdf.PdfName.NAMES);
iTextSharp.text.pdf.PdfDictionary embeddedfiles = documentnames.GetAsDict(iTextSharp.text.pdf.PdfName.EMBEDDEDFILES);
iTextSharp.text.pdf.PdfArray filespecs = embeddedfiles.GetAsArray(iTextSharp.text.pdf.PdfName.NAMES);
for (int i = 0; i < filespecs.Size; ) {
    filespecs.GetAsString(i++);
    iTextSharp.text.pdf.PdfDictionary filespec = filespecs.GetAsDict(i++);
    iTextSharp.text.pdf.PdfDictionary refs = filespec.GetAsDict(iTextSharp.text.pdf.PdfName.EF);
    foreach (iTextSharp.text.pdf.PdfName key in refs.Keys)
    {
        iTextSharp.text.pdf.PRStream stream = (iTextSharp.text.pdf.PRStream)iTextSharp.text.pdf.PdfReader.GetPdfObject(refs.GetAsIndirectObject(key));
        // I CAN GET THE ATTACHMENT HERE
        string filename = filespec.GetAsString(key).ToString();
        byte[] binary = iTextSharp.text.pdf.PdfReader.GetStreamBytes(stream);
    }
}
4

1 回答 1

0

我认为问题出在您尝试查找文件附件注释的顶部代码块中。在其内部循环(检查每个注释)中,您有一个构造:

if (iTextSharp.text.pdf.PdfName.FILEATTACHMENT.Equals(annot.GetAsName(iTextSharp.text.pdf.PdfName.SUBTYPE)))
{
    [...block 1...]
}
else
{
    [...block 2...]
}

这里第 1 块和第 2 块是相同的,即在任何情况下您都在那里执行代码,对于作为文件附件的注释和对于不是.

只要您的 PDF 中唯一的注释是文件附件,那没关系,但只要有另一个注释,该块 2 中的代码

iTextSharp.text.pdf.PdfDictionary fs = annot.GetAsDict(iTextSharp.text.pdf.PdfName.FS);
iTextSharp.text.pdf.PdfDictionary refs = fs.GetAsDict(iTextSharp.text.pdf.PdfName.EF);
foreach (iTextSharp.text.pdf.PdfName name in refs.Keys)
{
    // I CAN GET THE ATTACHMENT HERE
    string filename = fs.GetAsString(name).ToString();
    byte[] binary = iTextSharp.text.pdf.PdfReader.GetStreamBytes((iTextSharp.text.pdf.PRStream)refs.GetAsStream(name));
}

很可能会在您的脸上爆炸,因为大多数其他注释类型没有/EF条目,因此会refs产生异常。nullrefs.Keys

不幸的是,集成的 PDF 签名是可以作为注释附加到某些页面的表单字段(即使不可见)。因此,签署 PDF 会引发块 2 中的陷阱。

问题出现了,为什么您无论如何都尝试在 Block 2 中提取附件。根据 PDF 规范,文件附件注释必须包含if查找的类型信息。因此,任何符合规范的 PDF 都不会让您的代码进入文件附件注释的第 2 块。因此,您可以简单地删除该块 2。

于 2013-10-02T14:28:14.333 回答