我有一个数据库,其中包含以 28 种语言出版的赞美诗集的赞美诗标题。在输入标题时,我研究了每种语言中哪些 unicode 字符最正确(例如,汤加语声门塞音应该是 U+02BB,尽管它看起来像撇号;另外,在罗马尼亚语中,U+021A (ț)比 U+0163 (ţ) 等更正确)。
现在我正在做一个类似的项目,我想回去“分解”我的研究,方法是收集一种语言的所有标题并输出标题中使用的所有唯一字符的列表。
有没有办法用 MySQL 和/或 Python 做到这一点?我正在考虑在每个字符之间拆分一个字符串,对所有字符进行排序,然后将它们组合在一起。我的网站是用 Python 编写的,但它都是非常基本的编码(我还不太高级)。
编辑:这就是我的代码最终的结果,这要归功于这些响应,而且效果很好!
hymnstitleslist = lookup('''
SELECT HyName FROM Hymns
WHERE HymnbookID = "'''+hbid+'''"
''')
import string
from collections import Counter
some_text = ""
for x in range(0, len(hymnstitleslist)):
some_text = some_text+hymnstitleslist[x]['HyName']
letters = []
for i in some_text:
letters.append(i)
letter_count = Counter(letters)
for letter,count in letter_count.iteritems():
print "{}: {}".format(letter,count)