4

我正在尝试存储一个字符串,并在 python 中使用 nltk 对其进行标记后。但我不明白为什么在对其进行标记后(它创建一个列表)我看不到列表中的字符串..任何人都可以帮助我吗?

这是代码:

#a="Γεια σου"
#b=nltk.word_tokenize(a)
#b
['\xc3\xe5\xe9\xe1', '\xf3\xef\xf5']

我只是希望能够定期看到列表的内容..

提前谢谢

4

2 回答 2

6

您正在使用 Python 2,其中不带前缀的引号表示一个字节,而不是一个字符串(如果您不确定它们的区别,请阅读此内容)。切换到已修复此问题的 Python 3,或者为所有字符串添加前缀u并打印字符串(而不是显示它们repr,这在 Python 2.x 中有所不同):

>>> import nltk
>>> a = u'Γεια σου'
>>> b = nltk.word_tokenize(a)
>>> print(u'\n'.join(b))
Γεια
σου
于 2012-11-22T19:35:18.480 回答
0

你可以看到字符串。由于您的终端编码设置,字符由转义序列表示。将您的终端配置为接受输入并以 UTF-8 显示输出。

于 2012-11-22T19:34:46.453 回答