1

据我了解,Google 的 Ngram 数据集中的每个文件都包含一个 ngram 列表,按字母顺序排序,然后按年份数字排序。但是,假设数据是 UTF8(file说是正确的),и是 1080,这里I是 73,所以我不明白为什么использовал_NUM会出现在I'Academie_PRON. 文件中的相关行(从 #131356 行开始):

использовал_NUM 2005    4       1
I'Academie_PRON 1813    1       1

这是我的ngram-sort-test.js,其中突出显示了损坏的比较功能。要运行,请从 Google 下载此文件并将其解压缩到与 ngram-sort-test.js 相同的目录中。

4

1 回答 1

0

这不是一个真正的答案,但我的解决方法是使用LC_ALL=C sort <googlebooks-eng-all-1gram-20120701-i >googlebooks-eng-all-1gram-20120701-i.sorted.

于 2013-07-19T03:47:27.500 回答