1

如何使用 python-docx 识别新页面或某些表示页码的标识符?到目前为止,我已经查看了文档无济于事,并且还尝试查找 WD_BREAK.PAGE 属性,但此功能尚不支持。感谢所有帮助。

4

1 回答 1

3

简短的回答是,您无法从 .docx 文件中可靠地确定软分页符。您可以识别硬分页符,并且您可能能够检测 Word 上次“流动”文档时分页的位置。

Word 文档是“流动的”文档,这意味着 Word 的布局引擎将文档的文本“流动”到页面中,直到空间不足,然后创建一个新页面,将剩余的文本流动到该页面中。这些“软”分页符没有在 .docx 文件中指定;它们由 Word 在呈现时确定,用于显示或打印。这是有道理的,因为每当您更改(例如)边距时,页面可能会在不同的位置中断。

这意味着 .docx 文件不包含标识以下文本应流向新页面的位置的标记。

硬分页符是由文档作者明确插入的,以使后续内容流到新页面,而不管当前页面是否已满。这些是在我相信的运行中使用中断元素实现的,并且可以被检测到。

作为对辅助技术的帮助,例如视障人士的语音阅读器,Word 可能会插入<w:lastRenderedPageBreak>元素。我不太了解这些以及 Word 在什么情况下插入这些,但这可能是一个值得探索的途径。

于 2014-06-02T18:58:04.483 回答