1

我在一个非常简单的任务中遇到了一些性能问题(执行速度),如下所述。我的代码在这里显示很愚蠢,所以我将详细解释这个问题:

考虑下面的 sql 表,它存储了大约 12 年的每日降雨量数据:

历史数据

year, month, day, rainfall_observed
2001, 1, 1, 4
2001, 1, 2, 0
...
2012, 12, 31, 10

现在,考虑另一个具有相同结构但保存约 1 年每日预测数据的表:

预报

year, month, day, rainfall_forec
2013, 1, 1, 0
2013, 1, 2, 3
...
2013, 12, 31, 15

问题:对于每一天的预测数据,在历史数据中计算相同的(月、日),使得rainbow_observed > rain_forec。

例子

考虑预测条目

year = 2013, month = 3, day = 15, rainfall_forec = 10

然后我需要在每个条目中计算历史数据,其中月份 = 3天 = 15 ,其中观察到的降雨量 > 10(使用 SQL 很容易)。所以,我的输出是一个包含每个预测日计数的列表。

有很多方法可以做到这一点:

1 - 在 for 循环中使用 SQL 查询(每个预测日 1 个查询 = 循环中的 365 个查询 - 我还没有测试它)

2 - 查询所有观察到的数据并使用嵌套循环进行比较(~ 365 * 12 * 365 比较...)

3 - 将上述内容或一些数学与日期结合起来(但这里缺少数据是一个问题)

我目前正在使用选项 2,但我需要它更快。我会尝试选项 1,但也许我错过了一个更简单的解决方案。

所以,我很感激任何关于如何解决这个问题的建议。谢谢!

4

1 回答 1

1

您可以尝试这样的查询:

SELECT r_for.year, r_for.month, r_for.day, count(r_for.rainfall_forec) 
FROM forecast AS r_for 
RIGHT JOIN historic_data AS r_obs 
ON r_for.month = r_obs.month 
  AND r_for.day = r_obs.day 
  AND r_obs.rainfall_observed > r_for.rainfall_forec 
GROUP BY r_for.year, r_for.month, r_for.day
于 2013-09-20T05:36:54.700 回答