我正在和另外 4 个人参加 Kaggle 比赛。我们都是在 edx.org 的 MOOC 上认识的。
尽管我们可以使用 Apache Spark 引擎进行编码,但我们不知道如何设置集群并安装必要的软件以在其上运行 spark。
理想情况下,我们正在寻找一个可以让我们专注于编程的免费平台。
您知道任何易于使用且理想情况下免费的平台吗?如果没有,您能告诉我们如何设置必要的基础设施来参与挑战吗?
非常感谢您提前。
我正在和另外 4 个人参加 Kaggle 比赛。我们都是在 edx.org 的 MOOC 上认识的。
尽管我们可以使用 Apache Spark 引擎进行编码,但我们不知道如何设置集群并安装必要的软件以在其上运行 spark。
理想情况下,我们正在寻找一个可以让我们专注于编程的免费平台。
您知道任何易于使用且理想情况下免费的平台吗?如果没有,您能告诉我们如何设置必要的基础设施来参与挑战吗?
非常感谢您提前。
使用捆绑的脚本在 Linux 或 OS X 上启动独立集群并不难,如果您可以使用一个节点,或者每个节点都将您的开发计算机贡献给集群(在同一个 LAN 上),这可能就足够了。
当您需要扩展时,AWS EMR非常简单。
多花一点钱,Databricks 将Spark 作为托管服务提供。这意味着您真的不必考虑太多关于运行集群的问题。