我正在寻找一种按频率订购 Google Book 的 Ngram 的方法。
原始数据集在这里:http: //books.google.com/ngrams/datasets。在每个文件中,ngram 按字母顺序排序,然后按时间顺序排序。
我的电脑功能不够强大,无法处理 2.2 TB 的数据,所以我认为唯一的排序方法是“在云中”。
AWS 托管的版本在这里:http ://aws.amazon.com/datasets/8172056142375670 。
有没有一种经济有效的方法来找到 10,000 个最常见的 1 克、2 克、3 克、4 克和 5 克?
As an example, here are the 30,000,000th and 30,000,001st lines from file 0
of the English 1-grams (googlebooks-eng-all-1gram-20090715-0.csv.zip):
circumvallate 1978 313 215 85
circumvallate 1979 183 147 77
The first line tells us that in 1978, the word "circumvallate" (which means
"surround with a rampart or other fortification", in case you were wondering)
occurred 313 times overall, on 215 distinct pages and in 85 distinct books
from our sample.
理想情况下,频率列表仅包含 1980 年至今的数据(每年的总和)。