5

我的项目是用阿拉伯语识别正面或负面的情绪(情绪分析),为了完成这项任务,我使用了 NLTK 和 python,当我以阿拉伯语输入推文时发生错误

>>> pos_tweets = [(' أساند كل عون أمن شريف', 'positive'),
              ('ما أحلى الثورة التونسية', 'positive'),
              ('أجمل طفل في العالم', 'positive'),
              ('الشعب يحرس', 'positive'),
              ('ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')]
Unsupported characters in input

我怎么解决这个问题?

4

2 回答 2

3

您的问题来自 IDLE shell。AFAIK IDLE 在交互模式下不接受 UTF-8 输入。

我建议您使用其他(和更好的)shell,例如DreamPiePythonWin

于 2013-03-04T17:20:46.263 回答
3

我通常会做一个简单的 hack 来输入UTF-8我的 python 代码。我不知道它为什么起作用,但它接受 unicode 字符串并在我添加这些行后顺利运行脚本:

#! /usr/local/bin/python  -*- coding: UTF-8 -*-

pos_tweets = [(u' أساند كل عون أمن شريف', 'positive'), 
(u'ما أحلى الثورة التونسية', 'positive'), 
(u'أجمل طفل في العالم', 'positive'), 
(u'الشعب يحرس', 'positive'), 
(u'ثورة شعبنا هي ثورة الكـــرامة وثـــورة الأحــــرار', 'positive')] 

for i in pos_tweets:
  print i[0], i[1]
于 2013-03-05T03:08:14.407 回答