我正在尝试从历史飓风数据中生成综合认识。在我的问题中,飓风由一组描述符参数化(即风暴大小、风暴强度、风暴速度和风暴方向——所有这些都参考了飓风穿过某些海岸线时的值)。这些实现将用于对飓风产生的洪水进行概率预测。假设是历史飓风数据来自一些潜在的多元分布。这个想法是从这个潜在的分布中提取额外的样本(保留矩、相关性、物理界限,如正风暴大小等)。
我已经实施了一种最近邻高斯色散方法,该方法是从 Taylor 和 Thompson 开发的技术修改而来的 - 发表在 1986 年的计算统计和数据分析中。我想看看是否有更好的方法来做到这一点。
数据样本(1940-2005 年墨西哥湾飓风):
def TT_alg(data_list, sample_size, num_neighbors=5, metric=2):
dummy_list = []
dimension = len(data_list[0])
# transform the data to the interval [0,1]
aa = numpy.array([(max([row[i] for row in data_list]) - min([row[i] for row in data_list])) for i in range(dimension)])
bb = numpy.array([min([row[j] for row in data_list]) for j in range(dimension)])
data_array = numpy.array(data_list)
data_array_normed = (data_array - bb) / aa
# setup nearest neighbor tree
tree = scipy.spatial.KDTree(data_array_normed)
# perform nearest neighbor random walk
for ijk in range(sample_size):
sample = random.choice(data_array_normed)
kNN = tree.query(sample, k=num_neighbors, p=metric)
x_mu = numpy.array([numpy.average([data_array_normed[i][j] for i in kNN[1]]) for j in range(dimension)])
x_si = numpy.array([numpy.std([data_array_normed[i][j] for i in kNN[1]]) for j in range(dimension)])
s_gs = [numpy.random.normal(mu, si) for mu, si in zip(x_mu, x_si)]
dummy_list.append(s_gs)
dummy_array = numpy.array(dummy_list)
# go back to original scale
data_array_unnormed = (dummy_array * aa) + bb
return data_array_unnormed.tolist()
邻域大小 = 5 和距离度量 = 欧几里得的示例。