1

我有一个类似这个文档的文档,我想使用 Python 包docx : 将 DOCX 文件转换为 HTML 文件docx.convert_to_html(input)

我想知道是否有任何方法或 Python 包可以从每一行中提取位置?位置表示每行在页面中相对位置的边界。

我希望我的最终 HTML 结果如下所示:

<line b="38" id="line_0" l="616" r="795" style="white-space:nowrap; position:absolute; left:616px;top:14px; font-size:19.0px; " t="14">DOC
# 2019-0046594<br></line>

无论格式如何,我都需要“l、r、b、t”这四个位置值。

4

1 回答 1

0

您无法从 DOCX 文件中提取位置线渲染信息,因为 DOCX 文件不明确表示此类信息。自动换行和行渲染算法依赖于实现。

通常 DOCX 页码也是如此:请参阅如何按页码访问 OpenXML 内容?

于 2021-03-18T23:44:44.280 回答