0

我开始使用机器学习和分析,我的方法是深入研究数据并根据需要学习方法/工具。

我有一组事件数据,使用具有唯一 ID 的 RFID 芯片记录人们进​​出房间的活动,这样我就有了芯片何时进入房间和何时离开的时间戳。我想根据它们进出房间的动作对芯片 ID 进行分类。

例如,

  • 定期离开和返回的芯片可能属于在那个房间工作的人。
  • 进入并停留很长时间的芯片可能属于移动的电子设备。
  • 片刻之后来来去去,只有很少或只有一组入口/出口的芯片可能是访客。
  • 在房间里呆的时间最少且不经常访问的芯片可能只是有人走过。

这是我的四个主要类别。

到目前为止,我已经尝试过 k-means 聚类。对于每个芯片,我计算了一些可以指示特定类别的参数:在房间里的平均时间、一周内看到的天数、在房间里的总时间以及每天进出的平均次数。

有了这个,我已经看到了一些合理的结果,但是根据我使用的参数,结果会有很大差异。查看我在绘图上生成的芯片参数,分类有很多变化。我没有任何好的训练数据,这就是为什么我首先尝试了一种分类方法。

我主要是在寻找一些关于什么可能是更好的算法或技术的建议,或者即使我的方法还很遥远。如果需要,我可以提供代码或虚拟数据,但我真的只是在寻找一个好的方向。

4

1 回答 1

0

听起来像是一个有趣的问题!这里只是一些一般性的建议,可能会给你一些好主意。

首先,如果您能够通过对这些数据进行建模来确定您试图实现的某种目标,那将会很有用。可能是您想识别入侵者,或者了解有多少种不同类别的 RFID 徽章(您在问题中列出了四种,但如果真的有五种或十种呢?),或者完全是其他一些任务。根据您确定的任务,您可能需要不同的数据,但这会很有用,因为这样您就可以衡量您正在尝试的内容是否真的有效。希望这是有道理的。

其次,如果您使用 k-means(或任何聚类算法,真的)以无监督的方式对数据进行建模,那么对数据的特征进行归一化是一个好主意。假设您只有两个特征——一个表示最后进入房间的时间,另一个表示一个月内进入的总数。第一个特征的值将在 [0, 24) 范围内,而第二个特征的范围可以从 0 到 1000(比如说)。然后,当您计算数据点之间的距离时,第二个特征可能会因为数值较大而主导距离计算。对于初学者,请尝试从每个特征中减去平均值,然后除以标准差。如果不出意外,这有望使您的功能集群更加稳定。

于 2013-10-07T04:34:07.907 回答