嗨,我是 MLlib 的新手,我正在阅读 Spark 网站上有关它的文档。我很难理解为什么在下面的代码中我们需要缓存“0”用于训练和“1”用于测试:
val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L)
val training = splits(0).cache()
val test = splits(1)
谁能帮我理解原因?据我所知,我们需要正负样本,所以“1”可以是正的,“0”可以是负的,为什么要这样划分?
谢谢!