我在tensorflow_decision_forests
文档(https://github.com/tensorflow/decision-forests)(https://www.tensorflow.org/decision_forests/api_docs/python/tfdf/keras/wrappers/CartModel)和yggdrasil_decision_forests
文档(https://github.com/google/yggdrasil-decision-forests)。
我也看过这两个库的代码,但我没有找到那个信息。我也很好奇是否可以指定要使用的杂质索引。
我正在寻找与 sklearn 决策树的类比,您可以在其中使用criterion
参数指定杂质索引。
https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html
对于 TensorFlow Random Forest,我只找到了一个参数uplift_split_score
:
uplift_split_score:仅适用于隆起模型。拆分器得分,即拆分器优化的得分。Rzepakowski 等人的“使用单一和多重处理的隆起建模的决策树”中介绍了这些分数。符号:
p
阳性结果的q
概率/平均值,对照组的概率/平均值。-KULLBACK_LEIBLER
或KL
: - p log (p/q) -EUCLIDEAN_DISTANCE
或ED
: (pq)^2 -CHI_SQUARED
或CS
: (pq)^2/q 默认值:“KULLBACK_LEIBLER”。
我不确定这是否是一个好的线索。