algorithm - 对数字集的相似性进行评分的算法

Question

将多组数字与目标集进行比较以确定哪些数字最“相似”的算法是什么？

该算法的一种用途是将今天的每小时天气预报与历史天气记录进行比较，以找到具有相似天气的一天。

两组的相似度有点主观，所以算法真的只需要区分好匹配和坏匹配。我们有很多历史数据，所以我想通过自动丢弃不接近的集合并尝试将“最佳”匹配项放在顶部来尝试缩小用户需要查看的天数名单。

编辑：理想情况下，算法的结果与使用不同数据集的结果相当。例如，使用Niles建议的均方误差会产生很好的结果，但比较温度时生成的数字无法与其他数据（如风速或降水）生成的数字进行比较，因为数据的规模不同。一些非天气数据非常大，因此均方误差算法生成的数字为数十万，而使用温度生成的数字为数十或数百。

score 4 · Accepted Answer

我认为均方误差度量可能适用于天气比较等应用程序。它很容易计算并给出有意义的数字。

由于您想随着时间的推移比较测量值，您可以在计算中忽略缺失值。

对于没有时间限制甚至未排序的值，多维分散数据有点困难。选择一个好的距离度量成为分析此类数据的艺术的一部分。

score 2 · Accepted Answer

使用皮尔逊相关系数。我想出了如何在 SQL 查询中计算它，可以在这里找到：http: //vanheusden.com/misc/pearson.php

score 1 · Accepted Answer

在金融领域，他们使用 Beta 来衡量 2 系列数字的相关性。例如，Beta 可以回答“在过去一年中，在标准普尔 500 指数上涨 5% 的一天，IBM 的价格会上涨多少？” 它处理移动的百分比，因此 2 系列可以有不同的比例。

在我的示例中，Beta 是 Covariance(IBM, S&P 500) / Variance(S&P 500)。

维基百科有解释Covariance、Variance和 Beta 的页面：http://en.wikipedia.org/wiki/Beta_(finance)

score 1 · Accepted Answer

1

看统计网站。我认为您正在寻找相关性。

于 2008-09-26T14:53:58.770 回答

score 1 · Accepted Answer

例如，我假设您正在测量温度、风和降水。我们将这些项目称为“功能”。所以有效值可能是：

温度：-50 到 100F（我在美国明尼苏达州）
风速：0 到 120 英里/小时（不确定这是否现实，但请耐心等待）
沉淀：0 到 100

首先标准化您的数据。Temp 的范围为 150 个单位，Wind 为 120 个单位，Precip 为 100 个单位。将你的风单位乘以 1.25 和 Precip 乘以 1.5，使它们与你的温度大致相同的“比例”。您可以在这里花哨并制定规则，使一项功能比其他功能更有价值。在此示例中，风的范围可能很大，但通常保持在较小的范围内，因此您希望减少它的权重以防止它扭曲您的结果。

现在，将每个测量值想象成多维空间中的一个点。此示例测量 3d 空间（温度、风、降水）。好消息是，如果我们添加更多特征，我们只是增加了空间的维度，但数学保持不变。无论如何，我们想找到最接近我们当前点的历史点。最简单的方法是欧几里得距离。所以测量从我们当前点到每个历史点的距离并保持最接近的匹配：

for each historicalpoint

    distance = sqrt(
        pow(currentpoint.temp - historicalpoint.temp, 2) + 
        pow(currentpoint.wind - historicalpoint.wind, 2) +
        pow(currentpoint.precip - historicalpoint.precip, 2))

    if distance is smaller than the largest distance in our match collection
        add historicalpoint to our match collection
        remove the match with the largest distance from our match collection

next

这是一种蛮力的方法。如果你有时间，你可以变得更漂亮。多维数据可以表示为像kd-trees或r-trees这样的树。如果您有大量数据，将您当前的观察结果与每个历史观察结果进行比较将太慢。树木可以加快您的搜索速度。您可能想看看Data Clustering and Nearest Neighbor Search。

干杯。

score 1 · Accepted Answer

与统计学家交谈。

严重地。

他们以做这种事情为生。

您写道“两组的相似性有点主观”，但它根本不是主观的——这是为您的问题域确定相似性的适当标准的问题。

在这种情况下，您最好与专业人士交谈，而不是询问一堆程序员。

score 0 · Accepted Answer

首先，问问自己这些是集合还是有序集合。

我假设这些是带有重复的有序集合。最明显的算法是选择一个数字被认为相同的容差，并计算在该度量下数字相同的槽数。

score 0 · Accepted Answer

我确实在我的应用程序中为此实施了一个解决方案，但我正在寻找是否有更好或更“正确”的东西。对于每个历史日，我都会执行以下操作：

function calculate_score(historical_set, forecast_set)
{
    double c = correlation(historical_set, forecast_set);
    double avg_history = average(historical_set);
    double avg_forecast = average(forecast_set);
    double penalty = abs(avg_history - avg_forecast) / avg_forecast
    return c - penalty;
}

然后我将所有结果从高到低排序。

由于相关性是一个从 -1 到 1 的值，表示数字是一起下降还是一起上升，所以我用百分比差异来“惩罚”两组数字的平均值。