5

我有一个大型数据集(c. 40G),我想在实验室的几台计算机上用于一些 NLP(很大程度上是令人尴尬的并行),我没有root 访问权限,只有 1G 的用户空间。我用hadoop进行了实验,但当然这已经死了——数据存储在外部USB硬盘上,由于1G用户空间上限,我无法将其加载到dfs。我一直在研究几个基于 python 的选项(如果可以的话,我宁愿使用 NLTK 而不是 Java 的 lingpipe),分布式计算选项看起来像:

  • 蟒蛇
  • 迪斯科

在我的 hadoop 经验之后,我试图确保我尝试做出明智的选择——任何可能更合适的帮助将不胜感激。

亚马逊的 EC2 等并不是一个真正的选择,因为我几乎没有预算。

4

4 回答 4

3

与您学校的 IT 部门交谈(尤其是在您上大学时),如果是为了作业或研究,我敢打赌他们会非常乐意为您提供更多磁盘空间。

于 2010-05-16T16:36:26.857 回答
1

一定要和你学校的 IT 部门谈谈。使用不属于您的计算机资源不是一个好主意。

我发现了 JPPF,它使具有大量处理能力要求的应用程序能够在任意数量的计算机上运行。我不确定您是否需要在客户端计算机上安装软件,但某些端口需要在客户端计算机上打开。

于 2010-05-16T19:28:59.307 回答
1

没有实际答案;我会将此作为评论,但在这个网站上,如果你仍然是菜鸟,你只能回答

如果它真的像那样并行,而且只有几台计算机,你能不能提前手动拆分数据集?

您是否确认不会有防火墙或类似的东西阻止您使用类似的东西?

你可能只有 1GB 的用户空间,但是,如果是 linux,那么 /tmp 呢?(如果是 Windows,那么 %temp% 呢?)

于 2010-05-16T16:15:24.590 回答
0

如果您的计算部门没有更多资源,那么您将不得不考虑在对数据集进行任何工作之前将其分解为可管理的块,并将结果缩减为有意义的集合。

来自 IT 的更多资源将是可行的方法。

祝你好运 !

于 2010-05-17T06:46:12.877 回答