我正在尝试计算以 UTF-8 保存的乌尔都语文档中相同单词的数量。
因此,例如,我的文档包含 3 个完全相同的单词,以空格分隔
خُداوند خُداوند خُداوند
我试图通过使用以下代码读取文件来计算单词:
file_obj = codecs.open(path,encoding="utf-8")
lst = repr(file_obj.readline()).split(" ")
word = lst[0]
count =0
for w in lst:
if word == w:
count += 1
print count
但是我得到的计数值是 1,而我应该得到 3。
如何比较 Unicode 字符串?