1

我正在研究一个分类问题,它有不同的传感器。每个传感器收集一组数值。

我认为这是一个分类问题,并希望使用 weka 作为 ML 工具来解决这个问题。但是我不确定如何使用 weka 来处理输入值?哪个分类器最适合这个问题(特征的一个实例是一组数值)?

例如,我有三个传感器 A、B、C。我可以定义从所有传感器收集的 5 个数据作为一个实例吗?例如,A 的一个实例是{1,2,3,4,5,6,7},B 的一个实例是{3,434,534,213,55,4,7)。C{424,24,24,13,24,5,6}。

非常感谢您花时间审查我的问题。

4

1 回答 1

5

通常第一个尝试的分类器是朴素贝叶斯(你可以在 Weka 的“贝叶斯”目录下找到它),因为它速度快,参数少,而且只要训练样本很小,分类精度就很难被击败。

随机森林(您可以在 Weka 的“树”目录下找到它)是另一个令人愉快的分类器,因为它几乎可以处理任何数据。只需运行它,看看它是否会产生更好的结果。只需将树的数量从默认的 10 增加到某个更高的值即可。由于您有 7 个属性,因此 100 棵树就足够了。

然后我会尝试使用 k-NN(你可以在 Weka 的“Lazy”目录下找到它,它被称为“IBk”),因为它通常会为各种数据集排名最好的单个分类器。k-nn 的唯一问题是它对于大型数据集(> 1GB)的扩展性很差,并且它需要微调k,即邻居的数量。该值默认设置为 1,但随着训练样本数量的增加,通常最好将其设置为 2 到 60 范围内的某个更高的整数值。

最后,对于 Naive Bayes 和 k-nn 都表现不佳的一些数据集,最好使用SVM(在“Functions”下,它被称为“Lib SVM”)。但是,设置 SVM 的所有参数以获得有竞争力的结果可能很麻烦。因此,当我已经知道预期的分类精度时,我把它留到最后。如果你有两个以上的类要分类,这个分类器可能不是最方便的。

于 2013-06-26T12:28:17.153 回答