1

我正在使用 numpy,尤其是 histrogram2d 函数。我正在使用 2d 直方图对点(数组 和 )xy3D空间分布进行分箱。z对于每个点,我都有一个相关的密度场d

如果我做这样的事情

import numpy as np
H, xedges, yedges = np.histogram2d(x,y,bins=200,weights=d)

直方图H表示沿视线的密度之和(在本例中为 z 轴)。考虑到我正在使用非常大的数组,这非常快速和容易。

现在我想更进一步,而不是沿着视线绘制密度总和,我想获得每个 2D bin 中的最大密度。我编写了可能的解决方案:

from numpy import *
x=array([0.5,0.5,0.2,0.3,0.2,0.25,0.35,0.6,0.1,0.22,0.7,0.45,0.57,0.65])
y=array([0.5,0.5,0.28,0.18,0.85,0.9,0.44,0.7,0.1,0.22,0.7,0.45,0.54,0.65])
d=array([1,1,2,2,3,5,6,8,7,9,6,10,5,7])

bins=linspace(0,1,64)

idx=digitize(x,bins) 
idy=digitize(y,bins) 

img2=zeros((len(bins),len(bins)))

for i in arange(0,len(d)):
  dummy=idx[i]
  dummy2=idy[i]
  img2[dummy][dummy2]=max(d[i],img2[dummy][dummy2])

然而,对于一个巨大的数据集,最后几行的循环可能真的很慢。关于如何让它更快的任何想法?

4

1 回答 1

0

以下是我的做法,抱歉,我现在没有时间编写代码:

  1. 用于numpy.ravel_multi_index将 2d 问题转化为 1d 问题。
  2. 看一下 的实现numpy.unique,您想做类似的事情来获得唯一的 bin 值,但是您希望以这样的方式进行操作,以便同时为您提供最小值/最大值dnumpy.lexsort在这里也可能有所帮助。
  3. 回到二维空间应该很简单img2.flat[uniq_1d_bin_value] = bin_max

我希望这足以让你开始。如果您遇到问题,您可以发布您的代码并让我们知道您在哪里卡住了,也许我或其他人可以帮助您再次走上正确的道路。

于 2012-08-09T17:34:21.787 回答