我正在寻找有关创建分类树的建议,其中每个拆分都基于多个变量。一点背景知识:我正在帮助设计一个植被分类系统,我们希望使用分类和回归树算法来分类新的蔬菜数据并创建(或至少帮助创建)可以使用的视觉键在出版物中。我使用的数据以社区数据的形式排列,树种作为列,观察作为行,第一列是类的一个因素。我还要补充一点,我对这种类型的分析很陌生,虽然我尝试尽可能多地阅读它,但很可能我错过了一些简单但重要的方面。我很抱歉。
现在的问题是:R 具有出色的软件包和出色的文档,可用于单变量拆分(例如 rpart、partykit、C5.0)的分类。但是,理想情况下,我希望能够创建分类树,其中每个拆分都基于多个标准 - 因此,不是每个拆分都有一个决策(例如“物种 A > 6.67 的百分比覆盖率”),而是多个(百分比覆盖率物种 A > 6.67 和物种 B 覆盖率 < 4.2)。我在寻找能够进行多变量拆分和创建树的包时遇到了很多麻烦。这个答案:https ://stats.stackexchange.com/questions/4356/does-rpart-use-multivariate-splits-by-default非常有用,我已经尝试了那里建议的所有用于多变量拆分的包。Prim 确实进行了多变量拆分,但似乎没有生成树;partDSA 包似乎有点像我正在寻找的东西,但它也只创建每个拆分一个标准的树;optpart 包似乎也无法制作分类树。如果有人对我如何基于多元分区方法制作分类树有任何建议,那将非常感激。
另外,这是我的第一个问题,我非常愿意接受有关如何提问的建议。在这种情况下,我不觉得提供一个例子会有帮助,但如果有必要,我很容易做到。
非常感谢!