使用 org.apache.spark.mllib.util.MLUtils 包中的以下方法,将 LIBSVM 格式的二进制标记数据加载到 RDD[LabeledPoint] 中,自动确定特征数和默认分区数。
def loadLibSVMFile(sc: SparkContext, path: String): RDD[LabeledPoint]
我的问题是加载具有多类标签的数据?在多类标记数据上使用此方法时……它正在转换为二进制标记数据……有没有办法将 LibSVM 格式的多类数据加载到 RDD[LabeledPoint] 中……?
同一个包中还有另一种方法,描述如下
将 LIBSVM 格式的标记数据加载到 RDD[LabeledPoint] 中,具有默认的分区数。
def loadLibSVMFile(sc: SparkContext, path: String, numFeatures: Int): RDD[LabeledPoint]
但是当我尝试使用它时,出现错误显示“找到 Int,需要布尔值”