c# - 切片 PDF 文档

Question

如何在 c# 中切片 pdf 文档.. 这是我的切片代码，但是在切片后切片 10 MB pdf 文档的总大小为 20 MB 如何在切片时减少切片文档？？？请给出一个切片和压缩的好方法

public int ExtractPages(string sourcePdfPath)
    {
        int p = 0;
        try
        {
            iTextSharp.text.Document document;
            iTextSharp.text.pdf.PdfReader reader = new        iTextSharp.text.pdf.PdfReader(new iTextSharp.text.pdf.RandomAccessFileOrArray(sourcePdfPath), new ASCIIEncoding().GetBytes(""));
            if (!Directory.Exists(sourcePdfPath.ToLower().Replace(".pdf", "")))
            {
                Directory.CreateDirectory(sourcePdfPath.ToLower().Replace(".pdf", ""));
            }
            else
            {
                Directory.Delete(sourcePdfPath.ToLower().Replace(".pdf", ""), true);
                Directory.CreateDirectory(sourcePdfPath.ToLower().Replace(".pdf", ""));
            }

            for (p = 1; p <= reader.NumberOfPages; p++)
            {
                using (MemoryStream memoryStream = new MemoryStream())
                {
                    document = new iTextSharp.text.Document();
                    iTextSharp.text.pdf.PdfWriter writer = iTextSharp.text.pdf.PdfWriter.GetInstance(document, memoryStream);
                    writer.SetPdfVersion(iTextSharp.text.pdf.PdfWriter.PDF_VERSION_1_2);
                    writer.CompressionLevel = iTextSharp.text.pdf.PdfStream.BEST_COMPRESSION;
                    writer.SetFullCompression();
                    document.SetPageSize(reader.GetPageSize(p));
                    document.NewPage();
                    document.Open();
                    document.AddDocListener(writer);
                    iTextSharp.text.pdf.PdfContentByte cb = writer.DirectContent;
                    iTextSharp.text.pdf.PdfImportedPage pageImport = writer.GetImportedPage(reader, p);
                    int rot = reader.GetPageRotation(p);
                    if (rot == 90 || rot == 270)
                    {
                        cb.AddTemplate(pageImport, 0, -1.0F, 1.0F, 0, 0, reader.GetPageSizeWithRotation(p).Height);
                    }
                    else
                    {
                        cb.AddTemplate(pageImport, 1.0F, 0, 0, 1.0F, 0, 0);
                    }
                    document.Close();
                    document.Dispose();
                    File.WriteAllBytes(sourcePdfPath.ToLower().Replace(".pdf", "") + "/" + p + ".pdf", memoryStream.ToArray());
                }
            }
            reader.Close();
            reader.Dispose();
        }
        catch
        {
        }
        finally
        {
            GC.Collect();
        }
        return p - 1;

score 0 · Accepted Answer

PDF 使用资源的概念进行操作。文档中的任何大型内存消耗对象通常被认为是可以跨文档共享的资源。可共享资源的类型是字体、图像、页面模板（表单——不是 AcroForms）、色彩空间、图形状态对象、模式和过程集。如果我在第 1、2、3 和 4 页使用字体 Basketball Overextended，则文件中只需要嵌入一份 Basketball Overextended 副本。

当您将文档分成 4 个不同的页面时，iText 将完全按照您的要求执行：将字体嵌入到每个文件中。

由于字体通常很大，这是您的文件看起来臃肿的最可能原因。

如果您希望您的文档在任何地方都能正确呈现，那么这是正确的做法。

这并不是说没有选择。例如，如果 iText 足够聪明，它可能能够为每个页面生成一个字体子集——换句话说，分析你的字体使用情况，只嵌入实际使用的字体部分。

您也许还可以完全删除字体嵌入。只要您留下指标和字体描述符，Acrobat 就会非常努力地为您生成等效字体，甚至使用正确的字体（如果它在目标系统上可用），但如果文档使用深奥的字体，祝您好运那 - 您的最终用户将看到一个看起来完全错误的文档。

c# - 切片 PDF 文档

1 回答 1

Related

Reference