我试图使用 Weka 的 NaiveBayesUpdateable 分类器。我的数据包含名义属性和数字属性:
@relation cars
@attribute country {FR, UK, ...}
@attribute city {London, Paris, ...}
@attribute car_make {Toyota, BMW, ...}
@attribute price numeric %% car price
@attribute sales numeric %% number of cars sold
我需要根据其他属性预测销售数量(数字!)。
我知道我不能在 Weka 中使用数字属性进行贝叶斯分类。一种技术是将数值属性的值拆分为长度为 k 的 N 个区间,并使用名义属性代替,其中 n 是类名,如下所示:@attribute class {1,2,3,...N}。
然而,我需要预测的数字属性范围从 0 到 1 000 000。创建 1 000 000 个类根本没有意义。如何使用 Weka 预测数字属性,或者在 Weka 没有用于此任务的工具的情况下寻找什么算法?