0

我有一个包含 12 年天气数据的数据集。在前 10 年,每天记录数据。在过去的两年里,它现在每周记录一次。我想在 Python Pandas 中使用这些数据进行分析,但我对如何对其进行标准化以供使用几乎没有迷失。

我的想法

  1. 使用平均值将前 10 年的数据也转换为每周数据。可能有效,但翻译过程中丢失了很多数据。
  2. 每周数据无法转换为每天数据。
  3. 忽略每日数据——这是一个巨大的损失
  4. 忽略每周数据 - 我丢失了最近的数据。

对此有什么想法吗?

4

1 回答 1

0

首先,您需要定义您需要什么输出,然后,推断如何处理输入以获得所需的输出。

关于前 10 年的每日数据,每周只保留一天可能是一种可能的选择。二次抽样并不总是意味着丢失信息,也并不总是会改变最终结果。这取决于所收集数据的性质:数据变化的速度、测量误差、噪声。

变化速度:参考香农决定每周采样一次而不是每天采样是否没有信息丢失。鉴于去年的 2 年,有些人决定每周只采样一次,这似乎是说他们观察到每天的数据变化不大,每周采样一次就足够了。这为投票选出最终数据集提供了一个提示,该数据集将在总共 12 年中每周包含一个样本。除非他们出于成本原因减少抽样,否则会在准确性和抽样成本之间做出折衷。尝试在文献中找到您的数据预期变化的速度。

测量误差:如果测量误差包含一个随机正或负的小ε,那么,取7天的平均值做一个“一周”的数据会更好,因为它会增加取消这个变化的机会。否则,每周只进行 1 天的子抽样并抛出一周中的其他日子就足够了。我会尝试这两种方法,平均和二次采样,看看输出是否有显着不同。

于 2017-10-20T03:48:40.737 回答