我有数千个类似于以下内容的数据条目:
08 00 00 00 c3 85 20 65 6e 61 62 6c 65 64 2e 0d 0a 45 78 70
5c 72 88 74 80 83 82 79 68 8d 7b 73 90 7c 60 84 80 74 00 00
5d 77 84 76 7d 85 7f 7d 6c 94 7e 73 82 74 61 7f 7b 76 00 00
63 70 84 8c 95 87 80 72 65 73 70 67 85 8a 64 93 89 74 00 00
65 7c 73 6c 6c 9a a2 86 7e 4f 7e 71 7c 79 5c 7f 72 7b 00 00
...
每个条目有 20 个数字,其中每个数字可以是 0 到 255 之间的任何值(显示为十六进制数字)。我有可以用来帮助固定集群的参考资料。引用具有与数据相同的模板。
我已经确定我可以使用曼哈顿距离方程来给每个人一个关于参考数组的数值。但我正在寻找一种对数据进行聚类的方法。根据我对数据的了解,应该有大约 50-60 个集群。我希望一些数据超出阈值,因此不属于任何集群。
通过设置数据的方式,我可以处理传入的数据(大约 20 秒一次)。我还没有找到一个方便的库来使用,整个东西必须用 python 编写(最好只使用标准库)。
我希望我不需要自己开发算法。我相信我可能想要一个 MinHash,但我对其他可能性持开放态度。