2

我一直在尝试能够提取 PDF 包中包含的 pdf 文档,但没有成功。我在任何地方都找不到任何文档或示例代码,但我知道这并非不可能,因为 Adob​​e Reader 应用程序和 PDFExpert 应用程序都支持它。他们可能有自己的解析器,我希望它不会变成那样......

任何将我指向正确方向的提示将不胜感激

编辑:很长一段时间后,我重新开始研究这个问题,终于弄明白了。特别感谢 iPDFDev 为我指明了正确的方向!!

下面是如何获取每个内部 CGPDFDocumentRef 的代码:

NSURL *url = [NSURL fileURLWithPath:filePath isDirectory:NO];
CGPDFDocumentRef pdf = CGPDFDocumentCreateWithURL((__bridge CFURLRef)url);
CGPDFDictionaryRef catalog = CGPDFDocumentGetCatalog(pdf);

CGPDFDictionaryRef names = NULL;
if (CGPDFDictionaryGetDictionary(catalog, "Names", &names)) {
    CGPDFDictionaryRef embFiles = NULL;
    if (CGPDFDictionaryGetDictionary(names, "EmbeddedFiles", &embFiles)) {
        // At this point you know this is a Package/Portfolio

        CGPDFArrayRef nameArray = NULL;
        CGPDFDictionaryGetArray(embFiles, "Names", &nameArray);

        // nameArray contains the inner documents
        // it brings the name and then a dictionary from where you can extract the pdf

        for (int i = 0; i < CGPDFArrayGetCount(nameArray); i+=2) {
            CGPDFStringRef name = NULL;
            CGPDFDictionaryRef dict = NULL;

            if (CGPDFArrayGetString(nameArray, i, &name) &&
                CGPDFArrayGetDictionary(nameArray, i+1, &dict)) {
                NSString *_name = [self convertPDFString:name];

                CGPDFDictionaryRef EF;
                if (CGPDFDictionaryGetDictionary(dict, "EF", &EF)) {
                    CGPDFStreamRef F;
                    if (CGPDFDictionaryGetStream(EF, "F", &F)) {
                        CFDataRef data = CGPDFStreamCopyData(F, NULL);
                        CGDataProviderRef provider = CGDataProviderCreateWithCFData(data);

                        CGPDFDocumentRef _doc = CGPDFDocumentCreateWithProvider(provider);
                        if (_doc) {
                            // save the docRef somewhere (_doc)
                            // save the pdf name somewhere (_name)
                        }

                        CFRelease(data);
                        CGDataProviderRelease(provider);
                    }
                }
            }
        }
    }
}



- (NSString *)convertPDFString:(CGPDFStringRef)string {
    CFStringRef cfString = CGPDFStringCopyTextString(string);
    NSString *result = [[NSString alloc] initWithString:(__bridge NSString *)cfString];
    CFRelease(cfString);
    return result;
}
4

1 回答 1

1

通过 PDF 包,我假设您指的是 PDF 组合。PDF 组合中的文件基本上是具有一些扩展属性的文档附件,它们位于 EmbeddedFiles 树中。您从文档目录字典开始。从文档目录字典中检索 /Names 字典。从 /Names 字典中,如果存在(它是可选的),则检索 /EmbeddedFiles 字典。如果存在,则表示嵌入文件树(PDF 规范中的名称树)的头部。
PDF 规范(可在此处获得:http : //wwwimages.adobe.com/www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf)在第 7.9.6 节中描述了名称树你就会知道如何解析树。
树将字符串标识符映射到文件规范字典(第 7.11.3 节)。从文件规范字典中,您检索 /EF 键的值,它是嵌入的文件流(第 7.11.4 节)。与此对象关联的流是您要查找的文件内容。

于 2012-04-18T11:14:21.963 回答