我试图弄清楚 Unicode 类别的基数,例如Lo
. 似乎我找不到有关此的权威信息。例如Fileformat.info11788
维护这个类别中有字符的视图,Codepoints.net低至122
,而 Python 的unicodedata
,即使仅限于基本平面,也提供了45301
!:
In [219]: Lo=[unichr(c) for c in xrange(65536)
if unicodedata.category(unichr(c)) == 'Lo']
In [220]: len(Lo)
Out[220]: 45301
任何人都可以指出一个可靠的来源来解决这个问题吗?!
编辑:
Python 代码段中的结果len(Lo)
取决于所使用的UCD版本,因此取决于 Python 版本。我的结果是 Python 2.6 使用 UCD 5.1 版,Python 2.7 和 UCD 5.2 产生45877
相同的表达式,而 Python 3.2 和 UCD 6.0 可能会产生另一个数字。