python - 如何在python中按字符遍历unicode泰米尔语字符？

Question

我想知道 Unicode 字符串（泰米尔语）中有多少个字符，然后检查 character1 和 character2 是否有特定的出现。
我能够将单词拆分为字符，但我不知道如何使用单词长度逐个字符地遍历它们。

示例：单词：“எஃகு”。
它应该返回没有字符为 3，并且我应该能够将 word[0] 打印为“எ”，将 word[1] 打印为“ஃ”，将 word[2] 打印为“கு”。

我想检查如下：

    if word[0] is a vowel:
        if word[1] is "ஃ":
           then print word[0]+word[1]+word[3] (as எஃகு)
        else:
           print word[0]

我想使用 no of characters 进行遍历，如果 no.of.char 为 3，那么 i=0 应该可以帮助我处理“எ”。
我看到了很多与 Unicode 字符处理和长度处理相关的问题。但它们要么返回字节长度，要么给出不同的结果。所以我很困惑。

我用于按字符拆分它们的代码：

    for line in f.readlines():
       letters = utf8.get_letters(line)
       for letter in letters:
          ff.write(unicode(letter))
          ff.write(' ')

示例输入文件：

அன்று<br> அதாவது
அஃதான்று

示例输出文件：

அ ன் று
அ தா வ து அ
ஃ தா ன் று

score 5 · Accepted Answer

包裹

pip install Open-Tamil

代码

from tamil import utf8
string = u"எஃகு"
letters = utf8.get_letters(string)
print(len(letters))
# 3. Not 4. 
print(letters)
# [u'\u0b8e', u'\u0b83', u'\u0b95\u0bc1']
for letter in letters:
    print(letter)
# எ
# ஃ
# கு

python - 如何在python中按字符遍历unicode泰米尔语字符？

1 回答 1

Related

Reference