scala - 如何使用 Scala 运行具有分类特征集的 Spark 决策树？

Question

我有一个具有相应 categoricalFeaturesInfo 的功能集：Map [Int，Int]。但是，对于我的生活，我无法弄清楚我应该如何让 DecisionTree 类工作。它不会接受任何东西，而是接受 LabeledPoint 作为数据。但是，LabeledPoint 需要 (double, vector) ，其中向量需要双精度值。

val LP = featureSet.map(x => LabeledPoint(classMap(x(0)),Vectors.dense(x.tail)))

// Run training algorithm to build the model
val maxDepth: Int = 3
val isMulticlassWithCategoricalFeatures: Boolean = true
val numClassesForClassification: Int = countPossibilities(labelCol) 
val model = DecisionTree.train(LP, Classification, Gini, isMulticlassWithCategoricalFeatures, maxDepth, numClassesForClassification,categoricalFeaturesInfo)

我得到的错误：

scala> val LP = featureSet.map(x => LabeledPoint(classMap(x(0)),Vectors.dense(x.tail)))
<console>:32: error: overloaded method value dense with alternatives:
  (values: Array[Double])org.apache.spark.mllib.linalg.Vector <and>
  (firstValue: Double,otherValues: Double*)org.apache.spark.mllib.linalg.Vector
 cannot be applied to (Array[String])
       val LP = featureSet.map(x => LabeledPoint(classMap(x(0)),Vectors.dense(x.tail)))

到目前为止我的资源：树配置、决策树、标记点

score 21 · Accepted Answer

您可以先将类别转换为数字，然后像所有特征都是数字一样加载数据。

当您在 Spark 中构建决策树模型时，您只需要通过指定Map[Int, Int]()从特征索引到其 arity 的映射来告诉 spark 哪些特征是分类的以及特征的 arity（该特征的不同类别的数量）。

例如，如果您有以下数据：

1,a,add
2,b,more
1,c,thinking
3,a,to
1,c,me

您可以首先将数据转换为数字格式，如下所示：

1,0,0
2,1,1
1,2,2
3,0,3
1,2,4

以这种格式，您可以将数据加载到 Spark。然后，如果您想告诉 Spark 第二列和第三列是分类的，您应该创建一个映射：

categoricalFeaturesInfo = Map[Int, Int]((1,3),(2,5))

该地图告诉我们，索引为 1 的特征具有 3，而索引为 2 的特征具有 5。当我们构建决策树模型时，它们将被视为分类，将该地图作为训练函数的参数传递：

val model = DecisionTree.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, impurity, maxDepth, maxBins)

score 2 · Accepted Answer

LabeledPoint 不支持字符串，将其放入 LabeledPoint 的一种方法是将数据拆分为多列，考虑到您的字符串是分类的。

例如，如果您有以下数据集：

id,String,Intvalue
1,"a",123
2,"b",456
3,"c",789
4,"a",887

然后您可以拆分字符串数据，将字符串的每个值放入一个新列

a -> 1,0,0
b -> 0,1,0
c -> 0,0,1

由于您有 3 个不同的字符串值，因此您会将字符串列转换为 3 个新列，并且每个值将由这个新列中的一个值表示。

现在您的数据集将是

id,String,Intvalue
1,1,0,0,123
2,0,1,0,456
3,0,0,1,789
4,1,0,0,887

现在您可以将其转换为 Double 值并将其用于您的 LabeledPoint。

将字符串转换为 LabeledPoint 的另一种方法是为每列创建一个不同的值列表，并将字符串的值转换为该列表中该字符串的索引。不推荐，因为如果是这样，在这个假设的数据集中它将是

a = 0
b = 1
c = 2

但在这种情况下，算法将考虑 a 更接近 b 而不是 c，这是无法确定的。

score 0 · Accepted Answer

您需要确认数组 x 的类型。从错误日志中，它说数组 x 中的项目是 spark 不支持的字符串。当前的火花向量只能由 Double 填充。

scala - 如何使用 Scala 运行具有分类特征集的 Spark 决策树？

3 回答 3

Related

Reference