我开始使用机器学习和分析,我的方法是深入研究数据并根据需要学习方法/工具。
我有一组事件数据,使用具有唯一 ID 的 RFID 芯片记录人们进出房间的活动,这样我就有了芯片何时进入房间和何时离开的时间戳。我想根据它们进出房间的动作对芯片 ID 进行分类。
例如,
- 定期离开和返回的芯片可能属于在那个房间工作的人。
- 进入并停留很长时间的芯片可能属于移动的电子设备。
- 片刻之后来来去去,只有很少或只有一组入口/出口的芯片可能是访客。
- 在房间里呆的时间最少且不经常访问的芯片可能只是有人走过。
这是我的四个主要类别。
到目前为止,我已经尝试过 k-means 聚类。对于每个芯片,我计算了一些可以指示特定类别的参数:在房间里的平均时间、一周内看到的天数、在房间里的总时间以及每天进出的平均次数。
有了这个,我已经看到了一些合理的结果,但是根据我使用的参数,结果会有很大差异。查看我在绘图上生成的芯片参数,分类有很多变化。我没有任何好的训练数据,这就是为什么我首先尝试了一种分类方法。
我主要是在寻找一些关于什么可能是更好的算法或技术的建议,或者即使我的方法还很遥远。如果需要,我可以提供代码或虚拟数据,但我真的只是在寻找一个好的方向。