我有一个大型数据集(c. 40G),我想在实验室的几台计算机上用于一些 NLP(很大程度上是令人尴尬的并行),我没有root 访问权限,只有 1G 的用户空间。我用hadoop进行了实验,但当然这已经死了——数据存储在外部USB硬盘上,由于1G用户空间上限,我无法将其加载到dfs。我一直在研究几个基于 python 的选项(如果可以的话,我宁愿使用 NLTK 而不是 Java 的 lingpipe),分布式计算选项看起来像:
- 蟒蛇
- 迪斯科
在我的 hadoop 经验之后,我试图确保我尝试做出明智的选择——任何可能更合适的帮助将不胜感激。
亚马逊的 EC2 等并不是一个真正的选择,因为我几乎没有预算。