目前我们在AWS EC2(单实例)中使用text2vec处理大数据集,未来文本数据会越来越大,我们可能会尝试RHadoop(MapReduce)架构,不知道是否可以兼容text2vec和 RHadoop(MapReduce)。
问问题
102 次
1 回答
0
简短的回答是肯定的——如果你真的想要,你可以用 RHadoop 做任何事情。但我很确定付出的努力会很大,而且您可能不会对结果感到满意。
回到真正的问题。值得一试 text2vec 0.5 版(上周发布)——它消耗的内存比以前更少。您还可以轻松地使用块和并行处理数据。例如,检查这个小插曲。
另一件事是,对于分类等基本任务,您通常不需要 RAM 中的所有数据。例如,您可以检查我的另一个包 - FTRL,以逐步使用 SGD 拟合逻辑回归(使用 L1/L2/elasticnet 惩罚)。
如果您在 github 上报告内存问题(实际上来自Matrix
包),那就太好了。
PS 树方法和集成通常不适用于稀疏的高维数据。
于 2017-08-15T09:05:10.100 回答