python - 如何在 python 中创建具有缺失数据间隙的趋势线？

Question

所以我是 python 和数据分析的新手，但我的任务是创建一个散点图。我正在使用的数据集有许多包含 None 值的元素。当我使用 polyfit 方法创建趋势线（最佳拟合线）时，我得到了 Nones 的错误。我尝试过使用列表和 numpy 数组，但结果很糟糕。我也尝试过 masked_array、masked_invalid 等。在多种配置中，但它一直给我一个充满无的数组。有没有一种方法可以创建趋势线，我不需要删除具有 None 值的元素？我需要它们来保持我的绘图尺寸正确。我正在使用 Python 2.7。这是我到目前为止得到的：

import matplotlib.pyplot as plt
import numpy as np
import numpy.ma as ma
import pylab
#The InterpolatedUnivariateSpline method popped up during my endeavor 
#to extrapolate the trendline through the gaps in data.
#To be honest, I don't think its doing anything for me...
from scipy.interpolate import InterpolatedUnivariateSpline  

fig, ax = plt.subplots(1,1)
ax.scatter(y, dbm, color = 'purple', marker = 'o', s = 100)
plt.xlim(min(y), max(y)) 
plt.xlabel('Temp - C')
dbm_array = np.asarray(dbm) #dbm and y are lists earlier in the program
y_array = np.asarray(y)

x = np.linspace(min(y), max(y), len(y))
order = 1
s = InterpolatedUnivariateSpline(y, dbm, k=order)
blah = s(x)
plt.plot(y, blah, '--k')

由于某种原因，这给了我没有趋势线的散点图。没有错误，所以我想我已经做到了....提前非常感谢您！

score 0 · Accepted Answer

首先，如果你有数组，里面应该没有Nones，只有nans。这是因为None是一个不能用数字表示的对象。所以，第一个问题可能就在这里。我们来看一下：

import numpy as np

a = np.array([None, 1, 2, 3, 4, None])

我们得到什么？

>>> a
array([None, 1, 2, 3, 4, None], dtype=object)

这肯定是我们没有做到的。它是一个对象数组，大多数时候不是很有用。您不能对此进行任何计算：

>>> 2*a
unsupported operand type(s) for *: 'int' and 'NoneType'

发生这种情况是因为逐元素乘法试图乘以2*None。

所以，你真正想要的是：

>>> a = np.array([np.nan, 1, 2, 3, 4, np.nan])
>>> a
array([ nan,   1.,   2.,   3.,   4.,  nan])
>>> a.dtype
dtype('float64')
>>> 2 * a
array([ nan,   2.,   4.,   6.,   8.,  nan])

现在一切都按预期工作。

因此，第一件事是检查您的输入数组是否具有正确的形式。如果您在曲线拟合方面遇到问题，您可以创建一个没有讨厌nan的 s 的数组：

import numpy as np

a = np.array([[0,np.nan], [1, 1], [2, 1.5], [3.2, np.nan], [4, 5]])
b = a[-np.isnan(a[:,1])]

让我们看看aand的内容b：

>>> a
array([[ 0. ,  nan],
       [ 1. ,  1. ],
       [ 2. ,  1.5],
       [ 3.2,  nan],
       [ 4. ,  5. ]])
>>> b
array([[ 1. ,  1. ],
       [ 2. ,  1.5],
       [ 4. ,  5. ]])

这就是你想要的。曲线拟合b不带任何nans，其有四处迁移的习惯，使计算结果为nans。（这是设计使然。）

那么这是如何工作的呢？np.isnan(a[:,1])返回一个布尔数组True，每个位置都有一个在第nan1 列中a的False每个有效数字。由于这与我们想要的完全相反，我们将通过在前面添加减号来否定它。然后索引只选择有数字的行。

如果您的 X 数据和 Y 数据位于两个不同的一维向量中，请执行以下操作：

# original y data: Y
# original x data: X
# both have the same length

# calculate a mask to be used (a boolean vector)
msk = -np.isnan(Y)

# use the mask to plot both X and Y only at the points where Y is not NaN
plot(X[msk], Y[msk])

在某些情况下，您可能根本没有 X 数据，但您想对点进行编号，例如从 0 开始（就像matplotlib您只给它一个向量一样）。有几种可能性，但这是一种：

msk = -np.isnan(Y)
X = np.arange(len(Y))
plot(X[msk], Y[msk])

python - 如何在 python 中创建具有缺失数据间隙的趋势线？

1 回答 1

Related

Reference