我有一个正态分布。我想比较来自这个群体的两个输入概率来衡量它们的“相似性”。一切都是主观的,但我希望能够说 x 与 y 比 z 与 y 更“相似”,使用某种针对正态分布的方程。
例如,如果我的总体平均值是 10,而我的标准差是 3。我希望我的简单算法说发现两个点(19 和 17)比其他两个点(9 和 10)更相似,因为获得第 17 点的可能性要小得多(因为它距离平均值超过两个 sigma),因此使另一个随机点以较低的概率靠近第一个点,显示出比比较两个相同点出现更高的相似性更高的概率。
使用 P(X < p1) - P(X < p2) 之类的东西还不够好,因为如果两个点相同,我可能会得到 0。但是,获得 9 和 9 两个点的相似度应该低于两个点(20 和 20),因为 20 比 9 出现的可能性要小得多。
我觉得我需要使用上面的差异,但不知何故也使用均值和西格玛来制定相似性“公式”。
是否有一个现有的统计测试可以捕获我在上面尝试做的事情?如果没有,是否有人建议我将如何解决上述问题?
谢谢!