我有一堆字符串,它们是看起来像这样的句子:
Having two illnesses at the same time is known as \xe2\x80\x9ccomorbidity\xe2\x80\x9d and it can make treating each disorder more difficult.
.encode()
我用python的bz2
库对原始字符串进行了编码,然后进行了压缩。
然后我解压bz2.decompress()
并用来.decode()
取回它。
有什么想法可以方便地从文本中删除这些字节串或避免引号之类的字符无法正确解码吗?
谢谢!