我正在我的智能设备上实施 k-最近邻算法,以便从识别数据中识别人类活动。我将解释我将如何实现它。你们能否建议我对我正在采取的步骤进行任何改进,并回答我在途中可能会问的任何问题?
这些是步骤:
- 我下载了一个带标签的数据集,其中包括来自加速度计的三轴加速度以及描述活动的标签。我将在这个数据集中选择一些我希望识别的活动(在我的例子中是步行、坐着、站立)的数据。
- 然后,我将从数据集中的加速度计数据的每个窗口(即从包含加速度计数据的 128 个读数的数据集中的每条记录)中提取特征(在我的情况下,从幅度加速度的平均值、最小值、最大值、标准偏差)和我将以 JSON 格式将这些特征与窗口标签(作为一条记录)一起存储在设备上的文本文件中。因此,训练数据集中的一个记录/样本将包括:平均值、最小值、最大值、标准差和一个标签
- 在分类步骤中,从收集的数据中,我还将有一个加速度计数据窗口,从中提取上述 4 个特征。因此,我需要将收集到的数据的 4 个特征与训练数据中的每个样本进行比较。我应该如何找到它们之间的相似性,因为一条记录将包含 4 个特征?
作为第 (3) 点问题的解决方案,我正在考虑通过计算每个特征之间的差异来获取每个特征的 k 最近邻,然后从每个特征中挑选出大多数。请问你怎么看?你能提出任何优化吗?谢谢 :)