在解析来自网络请求的数据时,我遇到了以下字符串 -
dateRange = 'September\xa04,\xa01978 – September 1980'
提取字符串的编码似乎是 Latin-1(基于\xa0
)。我通过用空格替换代码来摆脱它。
dateRange = dateRange.replace(u'\xa0', u' ')
撇开这一点不谈,我不能在连字符 (-) 上拆分字符串。
当我按如下方式调用 split() 时:
print(dateRange.split('-'))
输出如下:
['September\xa04,\xa01978 – September 1980']
就好像字符串中没有连字符一样。我觉得它与编码有关,但我似乎无法完全理解这个问题。
那么,如何解决这个问题呢?
编辑:
我已经尝试了以下无济于事:
dateRange.split('\-')