在 Python 中,假设我有连续变量x
和y
,其值介于 0 和 1 之间(为了更容易)。我的假设一直是,如果我想将这些变量转换为带有 0,0.01,0.02,...,0.98,0.99,1 的 bin 的序数值,可以简单地将原始值四舍五入到第二位。出于某种原因,当我这样做时,它会留下工件。
让我来说明这个问题(但是请注意,我的问题不是如何获得正确的情节,而是实际上如何进行正确的分箱)。首先,这些是重现问题所需的唯一模块:
import numpy as np
import matplotlib.pyplot as plt
现在,假设我们连续生成如下数据(其他数据生成过程也会给出相同的问题):
# number of points drawn from Gaussian dists.:
n = 100000
x = np.random.normal(0, 2, n)
y = np.random.normal(4, 5, n)
# normalizing x and y to bound them between 0 and 1
# (it's way easier to illustrate the problem this way)
x = (x - min(x))/(max(x) - min(x))
y = (y - min(y))/(max(y) - min(y))
然后,让我们通过应用一些舍入将x
和转换y
为上述区间中的序数。然后,让我们将结果存储到x
byy
矩阵中,以便绘制其热图以进行说明:
# matrix that will represent the bins. Notice that the
# desired bins are every 0.01, from 0 to 1, so 100 bins:
mtx = np.zeros([100,100])
for i in range(n):
# my idea was that I could roughly get the bins by
# simply rounding to the 2nd decimal point:
posX = round(x[i], 2)
posY = round(y[i], 2)
mtx[int(posX*100)-1, int(posY*100)-1] += 1
我希望上面的方法可以工作,但是当我绘制矩阵的内容时mtx
,我实际上得到了奇怪的伪影。编码:
# notice, however, the weird close-to-empty lines at
# 0.30 and 0.59 of both x and y. This happens regardless
# of how I generate x and y. Regardless of distributions
# or of number of points (even if it obviously becomes
# impossible to see if there are too few points):
plt.matshow(mtx, cmap=plt.cm.jet)
plt.show(block=False)
给我:
最奇怪的是,无论我使用哪种分布生成x
以及y
用于 RNG 的种子,我总是在 0.30 和 0.59 处得到相同的水平和垂直近乎空的线x
和y
,经常与线立即平行对于那些显示点集中的人(就像你在图片中看到的那样)。
当我从该矩阵逐个值打印到控制台时,我实际上可以确认与那些近乎空的线相对应的那些确实为零或非常接近于零 - 与它们的相邻点不同。
我的问题可以更恰当地分为两部分:
为什么会出现上述情况?我真的很想了解在那个简单的代码中究竟是什么导致了这样的问题。
有什么更好的方法来生成
x
y
根据切点 0,0.01,0.02,...,0.98,0.99,1 对值进行分箱的by矩阵而不留下上面的工件?
如果您想轻松获取上面直接使用的整个示例代码,请点击以下链接: https ://www.codepile.net/pile/VLAq4kLp
注意:我不想找到正确的绘图方式。我想为自己找到生成表示的“分箱值矩阵”的正确方法是上面的情节。我知道还有其他方法可以在没有工件的情况下完成热图绘制,例如使用plt.matshow(mtx, cmap=plt.cm.jet); plt.show(block=False)
or plt.hist2d(x, y, bins=100)
。我要问的是我的矩阵生成本身的问题在哪里,它创建了那些接近零的元素。