12

我正在使用 pisa,它是 Python 的 HTML 到 PDF 转换库。

Word 文档是否存在相同的东西:Python 的 HTML 到 .doc 转换库?

4

4 回答 4

11

您可以使用pywin32 python extensions for windows 中的 win32com,让 MS Word 为您转换它。一个简单的例子:

import win32com.client

word = win32com.client.Dispatch('Word.Application')

doc = word.Documents.Add('example.html')
doc.SaveAs('example.doc', FileFormat=0)
doc.Close()

word.Quit()
于 2010-11-19T16:26:35.810 回答
5

虽然我不知道可以允许您转换它的直接模块,但是:

  1. 您可以先使用html2text模块将HTML转换为纯文本。
  2. 之后,您可以使用此python-docx模块将文本转换为docdocx文件。
于 2010-11-19T15:12:53.430 回答
2

万一其他人来到这里尝试进行相反的转换,上面的代码可以工作,但您需要修改 FileFormat 值。

http://msdn.microsoft.com/en-us/library/ff839952.aspx

示例:过滤后的 html 为 10,而不是 0。

于 2012-05-25T14:08:18.017 回答
0

使用 python3.x 更新修复此问题:

from htmldocx import HtmlToDocx

new_parser = HtmlToDocx()
new_parser.parse_html_file("html_filename", "docx_filename")
#Files extensions not needed, but tolerated
于 2021-01-11T23:32:07.713 回答