我需要从谷歌书籍的 n-gram 语料库中为每个目标词计算大约 10,000 个目标词和几百个上下文词的词共现统计
以下是完整数据集的链接:
很明显,数据库大约为 2.2TB,包含数千亿行。为了计算单词共现统计,我需要为每对可能的目标词和上下文词处理整个数据。我目前正在考虑将 Hadoop 与 Hive 一起使用来批量处理数据。考虑到这是一个学期时间限制和计算资源有限的学术项目,还有哪些其他可行的选择。
请注意,不需要实时查询数据
我需要从谷歌书籍的 n-gram 语料库中为每个目标词计算大约 10,000 个目标词和几百个上下文词的词共现统计
以下是完整数据集的链接:
很明显,数据库大约为 2.2TB,包含数千亿行。为了计算单词共现统计,我需要为每对可能的目标词和上下文词处理整个数据。我目前正在考虑将 Hadoop 与 Hive 一起使用来批量处理数据。考虑到这是一个学期时间限制和计算资源有限的学术项目,还有哪些其他可行的选择。
请注意,不需要实时查询数据
Hive 有一个用于处理 ngram 的内置 UDF https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation