0

目前,我参与了一些与数据挖掘相关的项目。而且,我必须使用以 GINIsplit 作为分割标准的决策树归纳,将给定的数据集(.csv 格式)分类为不同的类。所有这些我一直在 java 平台上做的,没有使用任何工具,例如 WEKA、ORANGE...等。

我的查询是-什么是表示决策树的最佳数据结构,以便分类快速有效?而且,如果属性是名义的、数字的或有序的,是否有任何针对属性的优化技术,我的意思是,具体的技术?

提前致谢!

4

1 回答 1

2

好吧,如果您真的想获得最佳的分类速度,请将您的决策树输出到.class...。即为树生成一个代码片段,然后编译它。这样,可以使用 Java Hotspot JRE 的本机速度执行评估。

因为您可以在程序逻辑中编码决策树:

if (attribute_x < 0.1) {
    switch(attribute_c) {
        case BANANA: {
            ...

主要问题是,您在多大程度上进行这种优化。

于 2013-01-12T10:32:40.130 回答