3

我是 Weka 的新手,我正在尝试构建一个分类器来对 EEG 数据进行分类。EEG 属性数据是 5 分钟记录的原始信号以及其他属性。如何以 WEKA arff 文件格式指定我的实例具有 5 分钟原始信号的矢量输入?

例如:

Num. -- raw -- class
1    -- [1,2,3,4,5,6] -- Relaxed
2    -- [2,3,4,5,6] --- Bored

raw属性向量在哪里..

4

1 回答 1

4

想想你的问题——你试图分类/预测什么,以及如何最好地表示它。您可能不想预测下一个原始 EEG 读数,因此时间序列方法可能并不重要。

Weka 只能处理具有一组固定属性(特征、值,或者换句话说,预定义长度的向量)的实例(数据行)。可能具有的属性类型是nominal(例如“红色”、“绿色”、“蓝色”)、numeric(任何整数/浮点值)、string(主要用于文本挖掘)。和date。没有办法将向量表示raw signal为单个属性。这是文档:http ://weka.wikispaces.com/ARFF+%28stable+version%29

也就是说,您的实例可能如下所示:

num,class1,reading_1,reading_2,reading_3 ... reading_n,relaxed,bored

wherereading_1是第一个原始读数,reading_n是 5 分钟结束时的最后一个读数。这将要求 WEKA 根据原始读数来预测您的班级,并且可能不会很有效(因为读数可能不会相互对齐,并且因为这会单独处理每个读数,而不关心频率之类的事情或相对的平均值)。

或者,您可以对原始数据进行一些预处理,以便它对 WEKA 中的大多数机器学习算法有用。在这种情况下,您需要决定重要的功能,然后创建它们。一个粗略的例子可能是:

num,class1,average,frequency,max_magnitude,standard_deviation,relaxed,bored

在将数据放入 ARFF 文件之前,您已经计算了数据的平均值和频率等内容。然后,算法对数据集的信息量大得多,作为预测的基础。

然而,另一个问题是你代表什么?整个 5 分钟的样本是同一类,还是用户relaxed对它bored的一部分和它的一部分?如果是这种情况,您可能应该有两个样本:一个用于用户无聊时,一个用于用户放松时。

于 2012-06-21T18:59:42.483 回答