我正在寻找用于机器学习任务的 C4.5 分类器。我有一个包含城市名称的大型数据集,需要区分伦敦安大略、英国伦敦甚至法国勃艮第的伦敦,但要查看周围文本中的特征:例如邮政编码、州名,即使是“加拿大”或没有提到“英格兰”。我还可以访问元数据,例如可以帮助确定它是哪个国家的拨号代码。
随后经过训练,我想在大型数据集上运行分类器。
在我在这里找到的所有示例中,结果只有两种状态(在这个高尔夫示例中,玩或不玩)。
c4.5 分类器可以将伦敦(加拿大)、伦敦(英格兰)、伦敦(法国)作为结果类处理,还是我需要为伦敦(加拿大)True/False 等设置不同的分类器?