7

如果我有一个训练有素的随机森林,有什么方法可以让我获得每个班级在测试样本上的森林获得的票数?一定比例的选票会更好。

类似于 CVRTrees::predict 的东西,但会得到原始输出以及预测的类。

谢谢

编辑进一步解释我的目标,以便我可能得到一个解决我的问题的答案,而不一定是我的问题。

要回答我知道多少,它很少。

这是一个真实世界的应用程序,我正在努力让自己尽快了解所有这些。

本质上,我研究判别分类器,要求我需要能够比较 2 个(或更多)独立分类器之间的输出。我的意思是独立的意思是他们可能知道也可能不知道整个类集,但是确实存在一组类,其中所有分类器都包含此类类的子集。

我最初的想法是从每个分类器中收集有关分类的元信息,理想情况下将包含某种形式(其中 15% 是 A,78% 的机会是 B)[我知道机会是坏话,但我会离开它]。如果我能得到该输出,我将能够根据分配给每个分类器的动态性能权重执行最终分类。

这个想法是我可以使用一个非常简单的基于规则的分类器来进行初始分类,而更奇特的分类器有时间训练。理想情况下,学习分类器可能支持比规则分类器更多的类,并且随着时间的推移,它主要被使用。

4

3 回答 3

6

我正在处理同样的问题,我想在这里分享我的解决方案。我从 CvRTrees 派生了一个类,并添加了一个具有所需行为的函数。我使用现有的 predict() 函数作为我的起点。这是我的代码:

class CvRTreesMultiClass : public CvRTrees
{
    public:
    int predict_multi_class( const CvMat* sample, 
                             cv::AutoBuffer<int>& out_votes, 
                             const CvMat* missing = 0) const;
};

和:

int CvRTreesMultiClass::predict_multi_class( const CvMat* sample, 
                                             cv::AutoBuffer<int>& out_votes, 
                                             const CvMat* missing ) const
{
int result = 0;
int k;

if( nclasses > 0 ) //classification
{
    int max_nvotes = 0;
    int* votes = out_votes;
    memset( votes, 0, sizeof(*votes)*nclasses );
    for( k = 0; k < ntrees; k++ )
    {
        CvDTreeNode* predicted_node = trees[k]->predict( sample, missing );
        int nvotes;
        int class_idx = predicted_node->class_idx;
        CV_Assert( 0 <= class_idx && class_idx < nclasses );

        nvotes = ++votes[class_idx];

    }

    result = ntrees;
}
else // regression
{
    throw std::runtime_error(__FUNCTION__ "can only be used classification");
}

return result;
}

调用此函数后,我只需根据每个班级收到的投票数计算概率(prob = out_votes[class_index] / result)。我认为这就是 OP 正在寻找的(至少我是)。

于 2013-05-23T01:35:31.340 回答
2

你在做二进制分类吗?如果是,您可以使用CvRTrees::predict_prob()。这应该返回一个介于 0 到 1 之间的值,这是决定给定点属于第二类的树的比例。

如果你有两个以上的类,那么将给定点分类到特定类的树的比例并不是一个很好的置信度指标。更好的方法是使用CvRTrees::get_proximity()。它的使用方式取决于您的应用程序。假设每个班级都有一个点,很有可能属于他们的班级。然后,您首先对给定点进行分类。为了检查分类的质量,您可以使用 get_proximity 来测量对给定点和高概率属于该类的点投票的树的比例。

警告

你的问题真的很有限,目前还不清楚你对衡量判别分类器的置信度了解多少。但是,如果您正在从事一个真实且严肃的项目,那么还有更多内容。如果它只是一个家庭作业或练习,那么也许就足够了。

于 2012-05-01T13:50:29.920 回答
0

对于某些分类器,可以直接计算特征向量 x 的分类的置信度:对于线性和二次判别分类器(参见 McLachlan “判别分析和统计模式识别”,Wiley,第 11 章,第 378 页),公式为衍生的。它们相当复杂,但请务必对您的问题给出正确答案。

于 2012-05-12T14:25:13.233 回答