我想知道 Unicode 字符串(泰米尔语)中有多少个字符,然后检查 character1 和 character2 是否有特定的出现。
我能够将单词拆分为字符,但我不知道如何使用单词长度逐个字符地遍历它们。
示例:单词:“எஃகு”。
它应该返回没有字符为 3,并且我应该能够将 word[0] 打印为“எ”,将 word[1] 打印为“ஃ”,将 word[2] 打印为“கு”。
我想检查如下:
if word[0] is a vowel:
if word[1] is "ஃ":
then print word[0]+word[1]+word[3] (as எஃகு)
else:
print word[0]
我想使用 no of characters 进行遍历,如果 no.of.char 为 3,那么 i=0 应该可以帮助我处理“எ”。
我看到了很多与 Unicode 字符处理和长度处理相关的问题。但它们要么返回字节长度,要么给出不同的结果。所以我很困惑。
我用于按字符拆分它们的代码:
for line in f.readlines():
letters = utf8.get_letters(line)
for letter in letters:
ff.write(unicode(letter))
ff.write(' ')
示例输入文件:
அன்று<br> அதாவது
அஃதான்று
示例输出文件:
அ ன் று
அ தா வ து அ
ஃ தா ன் று