删除表格后,我在从 .docx 中提取文本时遇到问题。我正在处理的 docx 文件包含许多我想在提取文本之前删除的表格。我先用docx2html把一个docx文件转成html,然后用BeautifulSoup去掉table标签,提取文本。
from docx2html import convert
from bs4 import BeautifulSoup
...
temp = convert(FileToConvert)
soup = BeautifulSoup(temp)
for i in range(0,len(soup('table'))):
soup.table.decompose()
Text = soup.get_text()
虽然这个过程有效并产生了我需要的东西,但 docx2html.convert() 存在一些效率问题。由于 .docx 文件实际上是 .xml 文件,是否可以跳过将 docx 转换为 html 的过程,并在删除表格后从 xml 中提取文本。