0

我正在寻找用于机器学习任务的 C4.5 分类器。我有一个包含城市名称的大型数据集,需要区分伦敦安大略、英国伦敦甚至法国勃艮第的伦敦,但要查看周围文本中的特征:例如邮政编码、州名,即使是“加拿大”或没有提到“英格兰”。我还可以访问元数据,例如可以帮助确定它是哪个国家的拨号代码。

随后经过训练,我想在大型数据集上运行分类器。

在我在这里找到的所有示例中,结果只有两种状态(在这个高尔夫示例中,玩或不玩)。

c4.5 分类器可以将伦敦(加拿大)、伦敦(英格兰)、伦敦(法国)作为结果类处理,还是我需要为伦敦(加拿大)True/False 等设置不同的分类器?

4

1 回答 1

1

在您的情况下,我看到了两种选择。

  • 第一种方法是对 c4.5 的直接扩展。在每个叶节点中,您保留所有标签,而不仅仅是多数标签。例如,如下图所示,红色标签实际上存在于三个不同的叶子中。当您在箭头指向的数据点进行查询时,输出是 3 个标签(绿色、红色和蓝色)以及它们对应的条件概率p(c|v)(给定特征x1x2,数据x属于类的概率是多少c)。

单树分类

  • 第二种方法是生成多个决策树,从而生成随机森林。随机性可以通过对每个树可用的训练数据的子集进行随机抽样来注入。在分类时,您可以聚合来自所有决策树的投票,以获得多类分类结果。

随机森林集合

这些数字是从Andrew Zisserma 的这个关于多类分类的优秀教程中借来的。

于 2013-06-11T21:25:57.283 回答