0

我有一个包含 1k 条记录的数据集,我的工作是根据这些记录进行决策算法。以下是我可以分享的:

  1. 目标是一个连续值。

  2. 有些预测变量(或属性)是连续值,有些是离散的,有些是离散值的数组(可以有多个选项)

我最初的想法是分离离散值的数组并使它们成为单独的特征(预测变量)。对于预测变量中的连续值,我正在考虑随机选择一些决策边界,看看哪一个最能减少熵。然后制作决策树(或随机森林),在创建树时使用标准偏差减少。

我的问题是:我走在正确的道路上吗?有没有更好的方法来做到这一点?

4

1 回答 1

0

我知道这可能来得有点晚,但您正在寻找的是Model Trees。模型树是决策树,其连续评分高于叶子中的分类值。通常,这些值是通过线性回归模型预测的。Quinlan 介绍的 M5 模型树是比较突出的模型树之一,也或多或少适合您的需求。Wang 和 Witten 重新实现了 M5 并扩展了它的功能,以便它可以同时处理连续和分类属性。他们的版本称为 M5',您可以在Weka中找到一个实现。剩下的唯一事情就是处理数组。但是,您的描述在这方面有点笼统。从我收集的信息来看,您的选择要么是扁平化的,要么是按照您的建议将它们分开。

请注意,自从 Wang 和 Witten 的工作以来,已经引入了更复杂的模型树。然而,M5' 是稳健的,在其原始公式中不需要任何参数化,这使得它易于使用。

于 2014-09-16T13:55:10.450 回答