我正在使用以下代码读取一个 word 文件:
import win32com.client as win32
word = win32.dynamic.Dispatch("Word.Application")
word.Visible = 0
doc = word.Documents.Open(SigLexiconFilePath)
我从包含许多不可打印字符的文件中获取字符串:
str = "\xa0keine\xa0freigäbü\xa0\x0b\r\x07"
我尝试使用以下代码删除不可打印的字符:
import string
str = "\xa0keine\xa0freigäbü\xa0\x0b\r\x07"
filtered_string = "".join(filter(lambda x:x in string.printable, str))
这给了我以下输出:
keinefreigb\x0b\r
我尝试过的其他代码:
str = str.split('\r')[0]
str = str.strip()
这给了我以下输出:
keine\xa0freigäbü
如何使用最少的代码删除所有这些不可打印的字符以低于所需的输出:
keine freigäbü