我正在寻找一种有监督的机器学习算法,它可以产生透明的规则或定义,可以很容易地被人类解释。
我使用的大多数算法(SVM、随机森林、PLS-DA)都不是很透明。也就是说,您很难在针对非计算机科学家读者的出版物中以表格形式总结模型。作者通常做的是,例如,发布基于某些标准的重要变量列表(例如,基尼指数或 RF 情况下的平均准确性下降),有时通过指出这些变量的不同之处来改进此列表有问题的班级之间。
我正在寻找的是一个相对简单的样式输出“如果(任何变量 V1-V10 > 中值或任何变量 V11-V20 < 第一四分位数)和变量 V21-V30 > 第三四分位数,然后是 A 类”。
周围有这样的吗?
只是为了限制我的问题:我正在处理高度多维的数据集(数万到数十万个通常共线的变量)。因此,例如回归树不是一个好主意(我认为)。