我有一些 ISO-2022-JP 编码文本。
前任。:まだ正式に决まったわけではないので。</p>
根据 re 库文档,它可以接受 ascii 和 unicode,所以我尝试将我的文本转换为 unicode 并在单词级别进行剪切:
text.decode('iso-2022-jp')
print(text)
print(re.findall(r"[\w']+", text))
但是,这是我得到的输出类型:
まだ 正式 に 決まっ た わけ で は ない の で 。
['B', 'B', 'B', 'B', 'B', '5', '0', 'B', 'B', 'K', 'B', 'B7h', 'C', 'B', 'B', 'B', 'B', 'o', '1', 'B', 'B', 'G', 'B', 'B', 'O', 'B', 'B', 'J', 'B', 'B', 'N', 'B', 'B', 'G', 'B', 'B', 'B']
我做错了什么?谢谢!