node.js - 谷歌 Ngram 排序？

Question

据我了解，Google 的 Ngram 数据集中的每个文件都包含一个 ngram 列表，按字母顺序排序，然后按年份数字排序。但是，假设数据是 UTF8（file说是正确的），и是 1080，这里I是 73，所以我不明白为什么использовал_NUM会出现在I'Academie_PRON. 文件中的相关行（从 #131356 行开始）：

использовал_NUM 2005    4       1
I'Academie_PRON 1813    1       1

这是我的ngram-sort-test.js，其中突出显示了损坏的比较功能。要运行，请从 Google 下载此文件并将其解压缩到与 ngram-sort-test.js 相同的目录中。

score 0 · Accepted Answer

这不是一个真正的答案，但我的解决方法是使用LC_ALL=C sort <googlebooks-eng-all-1gram-20120701-i >googlebooks-eng-all-1gram-20120701-i.sorted.

node.js - 谷歌 Ngram 排序？

1 回答 1

Related

Reference