1

将用户输入的字符串与另一个字符串进行比较的最佳方法是什么?

例如:

# -*- coding: utf-8 -*-

from __future__ import unicode_literals

user_input = raw_input("Please, write árido: ").decode("utf8")
if u"árido" == user_input:
    print "OK"
else:
    print "FALSE"

编辑:

这个

# -*- coding: utf-8 -*-

from __future__ import unicode_literals
from unicodedata import normalize
import sys

uinput2 = "árbol"
uinput = raw_input("type árbol: ")

print "Encoding %s" % sys.stdout.encoding
print "User Input \t\tProgram Input"
print "-"*50
print "%s \t\t\t%s \t(raw value)" % (uinput, uinput2)
print "%s \t\t\t%s \t(unicode(value))" % (unicode(uinput), unicode(uinput2))
print "%s \t\t\t%s \t(value.decode('utf8'))" % (uinput.decode("utf-8"), uinput2.decode("utf-8"))
print "%s \t\t\t%s \t(normalize('NFC',value))" % (normalize("NFC",uinput.decode("utf-8")), normalize("NFC",uinput2.decode("utf-8")));
print "\n\nUser Input \t\tProgram Input (Repr)"
print "-"*50
print "%s \t%s" % (repr(uinput),repr(uinput2))
print "%s \t%s \t(unicode(value))" % (repr(unicode(uinput)), repr(uinput2))
print "%s \t%s \t(value.decode('utf8'))" % (repr(uinput.decode("utf-8")), repr(uinput2.decode("utf-8")))
print "%s \t%s \t(normalize('NFC',value)))" % (repr(normalize("NFC",uinput.decode("utf-8"))), repr(normalize("NFC",uinput2.decode("utf-8"))));

印刷:

type árbol: árbol
Encoding utf-8
User Input      Program Input
--------------------------------------------------
árbol          árbol   (raw value)
árbol          árbol   (unicode(value))
árbol          árbol   (value.decode('utf8'))
árbol          árbol   (normalize('NFC',value))


User Input              Program Input (Repr)
--------------------------------------------------
'\xc3\x83\xc2\xa1rbol'  u'\xe1rbol'
u'\xc3\xa1rbol'         u'\xe1rbol'     (unicode(value))
u'\xc3\xa1rbol'         u'\xe1rbol'     (value.decode('utf8'))
u'\xc3\xa1rbol'         u'\xe1rbol'     (normalize('NFC',value)))

任何想法?当我使用 Java 等其他语言时,我没有问题。这只发生在我身上的python。我正在使用 Eclipse。

提前致谢 :)

4

2 回答 2

1

你能检查你的终端的字符编码吗?

导入系统

系统标准输入编码

如果是 UTF-8,那么解码应该没问题。否则,您必须使用正确的编码解码 raw_input。

像 raw_input().decode(sys.stdin.encoding) 来检查它是否与 Unicode 规范化一起正确,如果需要的话。

于 2013-07-17T17:51:18.517 回答
0

您当前的方法还不错,但您可能应该unicodedata.normalize()用于比较。上面链接的文档解释了为什么这是一个好主意。例如,尝试评估以下内容:

u'Ç' == u'Ç'

剧透警告,这会给你,False因为左边是序列 U+0043 (LATIN CAPITAL LETTER C) U+0327 (COMBINING CEDILLA),右边是单个字符 U+00C7 (LATIN CAPITAL LETTER C WITH CEDILLA) .

您可以unicodedata.normalize()通过首先将字符串转换为规范化形式来正确处理此问题。例如:

# -*- coding: utf-8 -*-
from unicodedata import normalize

from __future__ import unicode_literals

user_input = normalize('NFC', raw_input("Please, write árido: ").decode("utf8"))
if normalize('NFC', u"árido") == user_input:
    print "OK"
else:
    print "FALSE"
于 2013-07-17T17:41:58.253 回答