python - 如何从 Linux 上的多个 .doc/.docx 文件中删除行号？

Question

作为（Python）数据处理管道的一部分，我需要从大量 Word .doc/.docx 文件中删除行号。

我知道使用 Word.Interop 在 C# 中执行此操作的解决方案（例如，是否可以使用 Microsoft.Office.Interop.Word 以编程方式从 Word 文档中删除行号？）但是如果使用 LibreOffice 来实现这一点会很棒在--headless模式下（在评估 MS Word + wine 解决方案之前）。

对于单个文件，使用 UI，可以按照https://help.libreoffice.org/Writer/Line_Numbering进行操作，但我需要对很多文件执行此操作，因此使用宏/脚本/命令行解决方案

1）循环浏览一组文件
2）删除行号并将结果保存到文件

并通过例如 Pythonsubprocess调用触发，甚至可以通过调用 Python API ( https://help.libreoffice.org/Common/Scripting ) 来触发。

score 3 · Accepted Answer

要对工作目录中的文件列表执行行删除（并将结果输出放入 pdf），请在 Linux 命令行中运行 LibreOffice：

soffice --headless --accept="socket,host=localhost,port=2002;urp;StarOffice.ServiceManager"

然后在 Python 解释器中

import uno
import socket
import os
import subprocess
from pythonscript import ScriptContext
from com.sun.star.beans import PropertyValue

# list docfiles in working dir
files = [x for x in os.listdir('.') if x.endswith(".docx")]

# iterate on files
for file in files:

    localContext = uno.getComponentContext()
    resolver = localContext.ServiceManager.createInstanceWithContext("com.sun.star.bridge.UnoUrlResolver", localContext)
    ctx = resolver.resolve("uno:socket,host=localhost,port=2002;urp;StarOffice.ComponentContext")
    smgr = ctx.ServiceManager
    desktop = smgr.createInstanceWithContext("com.sun.star.frame.Desktop", ctx)

    # open file 
    model = desktop.loadComponentFromURL(uno.systemPathToFileUrl(os.path.realpath(file)), "_blank", 0, ())

    # remove line numbers
    model.getLineNumberingProperties().IsOn = False

    # prepare to save output to pdf
    XSCRIPTCONTEXT = ScriptContext(ctx, None, None)

    p = PropertyValue()
    p.Name = 'FilterName'
    p.Value = 'writer_pdf_Export'

    oDoc = XSCRIPTCONTEXT.getDocument()

    # create pdf 
    oDoc.storeToURL("file://" + os.getcwd() + "/" + file + ".pdf", tuple([p]))

这应该在您的工作目录中创建没有行号的 pdf 文件。

有用的链接：
添加行号并通过 OpenOffice 论坛上的宏导出为 pdf
LineNumberingProperties 文档
 有关从命令行运行宏的信息

python - 如何从 Linux 上的多个 .doc/.docx 文件中删除行号？

1 回答 1

Related

Reference