31

是否可以使用 iTextSharp 从 PDF 文档中删除不可见(或至少不显示)的对象?

更多细节:

1)我的来源是一个包含图像和文本(可能是一些矢量图)和嵌入字体的 PDF 页面。

2) 有一个界面可以设计多个“裁剪框”。

3) 我必须生成一个仅包含裁剪框内内容的新 PDF。必须从生成的文档中删除任何其他内容(实际上我可以接受一半在里面一半在外面的内容,但这不是理想的,无论如何也不应该出现)。

到目前为止我的解决方案:

我已经成功开发了一种解决方案,可以创建新的临时文档,每个文档都包含每个裁剪框的内容(使用 writer.GetImportedPage 和 contentByte.AddTemplate 到与裁剪框大小完全相同的页面)。然后我创建最终文档并重复该过程,使用 AddTemplate 方法将每个“裁剪页面”定位在最终页面中。

该解决方案有两大缺点:

  • 文件的大小是[原始大小] * [裁剪框的数量],因为整页都在那里,盖了很多次!(看不见,但它就在那里)
  • 仍然可以通过在 Reader 中选择所有 (CTRL+A) 并粘贴来访问不可见的文本。

所以,我想我需要遍历 PDF 对象,检测它是否可见,然后删除它。在撰写本文时,我正在尝试使用 pdfReader.GetPdfObject。

谢谢您的帮助。

4

5 回答 5

1

是的,这是可能的。您需要将 pdf 页面内容字节解析为 PdfObjects,将它们存储到内存中,删除不需要的 PdfObject,将 Pdf 内容从 PdfObject 构建回 pdf 内容字节,在通过 PdfWriter 导入页面之前替换 PdfReader 中的页面内容。

我建议你看看这个:http ://habjan.blogspot.com/2013/09/proof-of-concept-converting-pdf-files.html

链接中的示例实现 Pdf 内容字节解析,从 PdfObjec 重建,替换 PdfReader 页面内容字节...

于 2013-09-24T00:34:52.330 回答
1

如果您尝试的 PDF 是模板/预定义/固定的,那么您可以通过调用 RemoveField 来删除该对象。

PdfReader pdfReader = new PdfReader(../Template_Path.pdf"));
PdfStamper pdfStamperToPopulate = new PdfStamper(pdfReader, new FileStream(outputPath, FileMode.Create));
AcroFields pdfFormFields = pdfStamperToPopulate.AcroFields;
pdfFormFields.RemoveField("fieldNameToBeRemoved");
于 2013-09-18T05:47:30.420 回答
1
PdfReader pdfReader = new PdfReader(../Template_Path.pdf"));
PdfStamper pdfStamperToPopulate = new PdfStamper(pdfReader, new FileStream(outputPath, FileMode.Create));
AcroFields pdfFormFields = pdfStamperToPopulate.AcroFields;
pdfFormFields.RemoveField("fieldNameToBeRemoved");
于 2013-09-21T19:12:46.923 回答
1

这是我找到的三个解决方案,如果它可以帮助某人(使用iTextSharpAmyuniTracker-Software,正如@Hetote 在他正在寻找另一个库的评论中所说):

使用 iTextSharp

正如@martinbuberl 在另一个问题中回答的那样

public static void CropDocument(string file, string oldchar, string repChar)
{
    int pageNumber = 1;
    PdfReader reader = new PdfReader(file);
    iTextSharp.text.Rectangle size = new iTextSharp.text.Rectangle(
    Globals.fX,
    Globals.fY,
    Globals.fWidth,
    Globals.fHeight);
    Document document = new Document(size);
    PdfWriter writer = PdfWriter.GetInstance(document,
    new FileStream(file.Replace(oldchar, repChar),
    FileMode.Create, FileAccess.Write));
    document.Open();
    PdfContentByte cb = writer.DirectContent;
    document.NewPage();
    PdfImportedPage page = writer.GetImportedPage(reader,
    pageNumber);
    cb.AddTemplate(page, 0, 0);
    document.Close();
}

@rafixwpt 在他的问题中的另一个答案,但它不会删除不可见的元素,它会清理页面的一个区域,这可能会影响页面的其他部分:

static void textsharpie()
{
    string file = "C:\\testpdf.pdf";
    string oldchar = "testpdf.pdf";
    string repChar = "test.pdf";
    PdfReader reader = new PdfReader(file);
    PdfStamper stamper = new PdfStamper(reader, new FileStream(file.Replace(oldchar, repChar), FileMode.Create, FileAccess.Write));
    List<PdfCleanUpLocation> cleanUpLocations = new List<PdfCleanUpLocation>();
    cleanUpLocations.Add(new PdfCleanUpLocation(1, new iTextSharp.text.Rectangle(0f, 0f, 600f, 115f), iTextSharp.text.BaseColor.WHITE));
    PdfCleanUpProcessor cleaner = new PdfCleanUpProcessor(cleanUpLocations, stamper);
    cleaner.CleanUp();
    stamper.Close();
    reader.Close();
}

使用 Amyuni

正如@yms 在另一个问题中回答的那样

IacDocument.GetObjectsInRectangle 方法

GetObjectsInRectangle 方法获取指定矩形中的所有对象。

然后你可以迭代页面中的所有对象,并删除那些你不感兴趣的:

//open a pdf document
document.Open(testfile, "");
IacPage page1 = document.GetPage(1);
Amyuni.PDFCreator.IacAttribute attribute = page1.AttributeByName("Objects");

// listObj is an array list of graphic objects
System.Collections.ArrayList listobj = (System.Collections.ArrayList) attribute.Value.Cast<IacObject>();;

// listObjToKeep is an array list of graphic objects inside a rectangle
var listObjToKeep = document.GetObjectsInRectangle(0f, 0f, 600f, 115f,  IacGetRectObjectsConstants.acGetRectObjectsIntersecting).Cast<IacObject>();
foreach (IacObject pdfObj in listObj.Except(listObjToKeep))
{
   // if pdfObj is not in visible inside the rectangle then call pdfObj.Delete();
   pdfObj.Delete(false);
}

正如@yms 在评论中所说,另一种使用 5.0 版中的新方法IacDocument.Redact的解决方案也可用于删除指定矩形中的所有对象并在其位置绘制一个纯色矩形。

使用 Tracker-Software Editor SDK

我没有尝试过,但似乎有可能,请参阅这篇文章

于 2015-10-01T16:00:52.070 回答
0

您是否尝试过使用 IRenderListener?您可以通过检查 TextRenderInfo 或 ImageRenderInfo 对象的 StartPoint 和 EndPoint 或 Area 有选择地将那些元素添加到新的 pdf 中,这些元素属于裁剪区域。

于 2013-08-06T20:46:13.667 回答