2

只是想知道在数据块中工作时是否有人对最佳实践有任何想法。在 databricks 中开发在财务上会花费很多,因此想知道在哪里开发 python 代码最好。考虑到协作工作,是否有类似的 databricks 设置用于免费的协作工作或使用成本低。

任何建议,非常感谢!

4

1 回答 1

0

Databricks 的成本实际上与您正在运行的集群的大小(1 个工作程序、1 个驱动程序或 1 个驱动程序 32 个工作程序?)、集群中机器的规格(低 RAM 和 CPU 或高 RAM 和 CPU)有关,以及您让它们运行多长时间(始终运行或生存时间短,也就是“在 x 分钟不活动后终止”。我还假设您没有运行始终处于高并发集群模式。

一些一般性建议是:

  • 在 dev 中使用较小的数据集,例如具有代表性的样本,这将使您能够...
  • 在 dev 中使用较小的集群,例如,使用 2 节点的小型集群,而不是使用大型 32 节点集群
  • 将时间设置为短,例如 15 分钟
  • 这将共同降低您的成本

显然,在组装有代表性的样本并确保您的输出仍然准确和有用时需要权衡取舍,但这取决于您。

于 2020-02-26T15:56:13.440 回答