machine-learning - 分类事件数据

Question

我开始使用机器学习和分析，我的方法是深入研究数据并根据需要学习方法/工具。

我有一组事件数据，使用具有唯一 ID 的 RFID 芯片记录人们进出房间的活动，这样我就有了芯片何时进入房间和何时离开的时间戳。我想根据它们进出房间的动作对芯片 ID 进行分类。

例如，

定期离开和返回的芯片可能属于在那个房间工作的人。
进入并停留很长时间的芯片可能属于移动的电子设备。
片刻之后来来去去，只有很少或只有一组入口/出口的芯片可能是访客。
在房间里呆的时间最少且不经常访问的芯片可能只是有人走过。

这是我的四个主要类别。

到目前为止，我已经尝试过 k-means 聚类。对于每个芯片，我计算了一些可以指示特定类别的参数：在房间里的平均时间、一周内看到的天数、在房间里的总时间以及每天进出的平均次数。

有了这个，我已经看到了一些合理的结果，但是根据我使用的参数，结果会有很大差异。查看我在绘图上生成的芯片参数，分类有很多变化。我没有任何好的训练数据，这就是为什么我首先尝试了一种分类方法。

我主要是在寻找一些关于什么可能是更好的算法或技术的建议，或者即使我的方法还很遥远。如果需要，我可以提供代码或虚拟数据，但我真的只是在寻找一个好的方向。

score 0 · Accepted Answer

听起来像是一个有趣的问题！这里只是一些一般性的建议，可能会给你一些好主意。

首先，如果您能够通过对这些数据进行建模来确定您试图实现的某种目标，那将会很有用。可能是您想识别入侵者，或者了解有多少种不同类别的 RFID 徽章（您在问题中列出了四种，但如果真的有五种或十种呢？），或者完全是其他一些任务。根据您确定的任务，您可能需要不同的数据，但这会很有用，因为这样您就可以衡量您正在尝试的内容是否真的有效。希望这是有道理的。

其次，如果您使用 k-means（或任何聚类算法，真的）以无监督的方式对数据进行建模，那么对数据的特征进行归一化是一个好主意。假设您只有两个特征——一个表示最后进入房间的时间，另一个表示一个月内进入的总数。第一个特征的值将在 [0, 24) 范围内，而第二个特征的范围可以从 0 到 1000（比如说）。然后，当您计算数据点之间的距离时，第二个特征可能会因为数值较大而主导距离计算。对于初学者，请尝试从每个特征中减去平均值，然后除以标准差。如果不出意外，这有望使您的功能集群更加稳定。

machine-learning - 分类事件数据

1 回答 1

Related

Reference