我正在从 Word 文件中读取表格。下面是我读取word文件的代码:
import win32com.client as win32
word = win32.Dispatch("Word.Application")
word.Visible = 0
word.Documents.Open(SigLexiconFilePath)
doc = word.ActiveDocument
table = doc.Tables(1)
for i in range(2 , table.Rows.Count+1):
commandName = table.Cell(Row = i, Column= 0).Range.Text
所有commandName
字符串末尾都有德语字符和 2 个不可打印字符。例如 :
commandName = Prüf\r\x07
我使用下面的代码删除了不可打印的字符,但它也从字符串中删除了德语字符。
commandName = ''.join(filter(lambda x: x in string.printable, commandName))
commandName = commandName.strip()
有没有什么pythonic方法可以从字符串中删除不必要的字符?我想要的最终输出是:
commandName = Prüf