python - UnicodeDecodeError：“ascii”编解码器无法解码位置 1039 中的字节 0x92：序数不在范围内（128）

翻译自：https://stackoverflow.com/questions/51040542 2018-06-26T10:23:33.793

49 次

from nltk.stem import WordNetLemmatizer
lemmatizer= WordNetLemmatizer()
data1['lematized']=""
data1['lematized']=data1['punctuation_removal'].apply(lambda x 
:lemmatizer.lemmatize(x))

我正在使用此代码对自然语言项目中的数据进行词形还原，但它返回错误。

UnicodeDecodeError: 'ascii' codec can't decode byte 0x92 in position 1039: ordinal not in range(128)

我尝试将默认编码更改为 UTF-8，但没有奏效。

当我提供带有标记数据的标记数据作为输入时，它会导致

    from nltk.stem import WordNetLemmatizer
    lemmatizer= WordNetLemmatizer()
    data1['lematized']=""
    data1['lematized']=data1['word_tagging'].apply(lambda x :lemmatizer.lemmatize(x))

Error: TypeError: unhashable type: 'list'

我该如何解决这个问题？

python - UnicodeDecodeError：“ascii”编解码器无法解码位置 1039 中的字节 0x92：序数不在范围内（128）

0 回答 0

Related

Reference