0

重写为看起来更像一个编程问题

好的,所以我做了更多的研究,看起来我需要使用的 java 包是 docx4j。不幸的是,我对包以及 PDF 格式的基础不熟悉,这让我很难弄清楚如何使用返回的页眉和页脚SectionWrapper.getHeaderFooterPolicy()HeaderPart返回的和FooterPart对象是否可写或如何修改它们并不完全清楚。

这个代码提供了一个如何创建标题部分的示例,但它会创建一个新的HeaderPart并将其添加到文档中。

我想找到现有的页眉/页脚部分,如果可能的话,要么删除它们,要么清空它们。理想情况下,它们会完全从文档中消失。

这段代码是相似的,允许您使用设置标题部分的文本,setJaxbElement但是这个术语有很多是不熟悉的,我担心最终结果将是我在每个文档中创建标题(尽管是空的)而不是删除它们。

下面的原始问题

我正在处理一组变化很大的 MS Word 文档。我正在将它们编译成一个 PDF,并希望在这样做之前确保它们都没有页眉或页脚。

理想情况下,如果它不是 Times New Roman,我还想覆盖他们的默认字体。

有没有办法以编程方式或使用某种批处理来执行此操作?

我将在当前没有安装 Office 或 Word 的 Windows 服务器上运行它(尽管我认为它可能安装了 OpenOffice,当然添加安装也很容易)。

现在我正在使用某些版本的 iText (java) 将文件转换为 PDF。我知道显然 iText 不能做诸如删除页眉/页脚之类的事情,但是由于现代 .doc 文件的底层结构是 XML,我想知道是否有 API(甚至是 XML 解析/编辑 API,或者,如果所有其他方法都失败了,一个 RegEx [horrors]) 用于删除页眉和页脚并设置一些默认样式。

4

2 回答 2

2

这是一些热门的代码来做你想做的事:

public class HeaderFooterRemove  {

public static void main(String[] args) throws Exception {

    // A docx or a dir containing docx files
    String inputpath = System.getProperty("user.dir") + "/testHF.docx";

    StringBuilder sb = new StringBuilder(); 

    File dir = new File(inputpath);

    if (dir.isDirectory()) {

        String[] files = dir.list();

        for (int i = 0; i<files.length; i++  ) {

            if (files[i].endsWith("docx")) {
                sb.append("\n\n" + files[i] + "\n");
                removeHFFromFile(new java.io.File(inputpath + "/" + files[i]));     
            }
        }

    } else if (inputpath.endsWith("docx")) {
        sb.append("\n\n" + inputpath + "\n");
        removeHFFromFile(new java.io.File(inputpath ));     
    }

    System.out.println(sb.toString());

}

public static void removeHFFromFile(File f) throws Exception {


    WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage
            .load(f);

    MainDocumentPart mdp = wordMLPackage.getMainDocumentPart();

    // Remove from sectPr
    SectPrFinder finder = new SectPrFinder(mdp);
    new TraversalUtil(mdp.getContent(), finder);
    for (SectPr sectPr : finder.getSectPrList()) {
        sectPr.getEGHdrFtrReferences().clear();
    }

    // Remove rels
    List<Relationship> hfRels = new ArrayList<Relationship>(); 
    for (Relationship rel : mdp.getRelationshipsPart().getRelationships().getRelationship() ) {

        if (rel.getType().equals(Namespaces.HEADER)
                || rel.getType().equals(Namespaces.FOOTER)) {
            hfRels.add(rel);
        }
    }
    for (Relationship rel : hfRels ) {
        mdp.getRelationshipsPart().removeRelationship(rel);
    }

        wordMLPackage.save(f);              
    }
}

上面的代码依赖于SectPrFinder,所以把它复制到某个地方。

为简洁起见,我忽略了进口。但是你可以从GitHub复制那些

在将 docx 集制作成单个 PDF 时,显然您可以将它们合并为单个 docx,然后将其转换为 PDF,或者将它们全部转换为 PDF,然后合并这些 PDF。如果您更喜欢前一种方法(例如,因为最终用户希望能够编辑文档包),那么您可能希望考虑我们的 docx4j 商业扩展 MergeDocx。

于 2013-08-03T00:05:49.543 回答
1

要删除页眉/页脚,有一个非常简单的解决方案:

以 Zip 格式打开 docx,并删除名为header*.xml/footer*.xml的文件(位于word文件夹中)。

解压后的 docx 结构:https ://stackoverflow.com/tags/docx/info

要真正删除链接(如果您不这样做,它可能会损坏):

您需要编辑document.xml.rels文件,并删除所有包含页脚/页眉的关系。这是您应该删除的关系:

<Relationship Id="rId13" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/footer" Target="footer2.xml"/>

更一般地说,所有包含 type='footer' 或 type='header'

于 2013-08-02T22:35:17.810 回答