text2vec - text2vec 与 RHadoop 的兼容性

Question

目前我们在AWS EC2（单实例）中使用text2vec处理大数据集，未来文本数据会越来越大，我们可能会尝试RHadoop（MapReduce）架构，不知道是否可以兼容text2vec和 RHadoop（MapReduce）。

score 0 · Accepted Answer

简短的回答是肯定的——如果你真的想要，你可以用 RHadoop 做任何事情。但我很确定付出的努力会很大，而且您可能不会对结果感到满意。

回到真正的问题。值得一试 text2vec 0.5 版（上周发布）——它消耗的内存比以前更少。您还可以轻松地使用块和并行处理数据。例如，检查这个小插曲。

另一件事是，对于分类等基本任务，您通常不需要 RAM 中的所有数据。例如，您可以检查我的另一个包 - FTRL，以逐步使用 SGD 拟合逻辑回归（使用 L1/L2/elasticnet 惩罚）。

如果您在 github 上报告内存问题（实际上来自Matrix包），那就太好了。

PS 树方法和集成通常不适用于稀疏的高维数据。

1 回答 1