statistics - 混合（二进制和数字）向量的相似度得分

Question

我有一个数据集，其中实例有大约 200 个特征，其中大约 11 个特征是数字（整数），其余的是二进制（1/0），这些特征可能是相关的，并且它们具有不同的概率分布，

一段时间以来，我一直在寻求一个很好的相似度分数，它适用于混合向量并考虑到特征之间的相关性，

你知道这样的相似度分数吗？

谢谢，阿里安

score 3 · Accepted Answer

在您的情况下，相似性函数在很大程度上依赖于输入数据模式。您可能会受益于从一组给定的相似/不相似点集合中学习数据输入空间的距离度量，该集合保留了训练数据之间的距离关系。

这是一份不错的调查报告。

score 2 · Accepted Answer

多种距离测量类型，欧几里得、曼哈顿等，将根据数据集提供不同级别的准确度。最好阅读有关您的数据拟合方法的论文，并查看他们使用的启发式方法。更不用说某些方法只需要相应扩展的同质数据。这是一篇论文，其中讨论了您可能会觉得有吸引力的一系列措施。

与往常一样，进行测试和交叉验证，看看混合特征类型是否真的有影响。

2 回答 2