据我了解,Google 的 Ngram 数据集中的每个文件都包含一个 ngram 列表,按字母顺序排序,然后按年份数字排序。但是,假设数据是 UTF8(file
说是正确的),и
是 1080,这里I
是 73,所以我不明白为什么использовал_NUM
会出现在I'Academie_PRON
. 文件中的相关行(从 #131356 行开始):
использовал_NUM 2005 4 1
I'Academie_PRON 1813 1 1
这是我的ngram-sort-test.js,其中突出显示了损坏的比较功能。要运行,请从 Google 下载此文件并将其解压缩到与 ngram-sort-test.js 相同的目录中。