我正在用 Python NLTK 标记一些 unicode 文本。问题是文本来自编码错误的数据源,并且没有指定编码。经过一番折腾,我发现文本必须是 UTF-8 格式。给定输入字符串:
s = u"The problem isn’t getting to Huancavelica from Huancayo to the north."
我想用 NLTK 处理它,例如用于 POS 标记,但是特殊字符没有被解析,我得到如下输出:
The/DT problem/NN isn’t/NN getting/VBG
代替:
The/DT problem/NN isn't/VBG getting/VBG
如何从这些特殊字符中清除文本?
感谢您的任何反馈,
穆龙
更新:如果我运行HTMLParser().unescape(s)
,我得到:
u'The problem isn\u2019t getting to Huancavelica from Huancayo to the north.'
在其他情况下,我仍然会在文本中得到&
和。
我需要做什么才能将其翻译成 NLTK 可以理解的内容?