86

使用Python 中matplotlib的数据框制作一系列散点图的最佳方法是什么?pandas

例如,如果我有一个df包含一些感兴趣的列的数据框,我发现自己通常会将所有内容都转换为数组:

import matplotlib.pylab as plt
# df is a DataFrame: fetch col1 and col2 
# and drop na rows if any of the columns are NA
mydata = df[["col1", "col2"]].dropna(how="any")
# Now plot with matplotlib
vals = mydata.values
plt.scatter(vals[:, 0], vals[:, 1])

在绘图之前将所有内容转换为数组的问题在于它会迫使您脱离数据框。

考虑这两个用例,其中拥有完整的数据框对于绘图至关重要:

  1. 例如,如果您现在想查看在col3对 的调用中绘制的对应值的所有值scatter,并按该值对每个点(或大小)进行着色,该怎么办?您必须返回,取出非 na 值col1,col2并检查它们的对应值。

    有没有办法在保留数据框的同时进行绘图?例如:

    mydata = df.dropna(how="any", subset=["col1", "col2"])
    # plot a scatter of col1 by col2, with sizes according to col3
    scatter(mydata(["col1", "col2"]), s=mydata["col3"])
    
  2. 同样,假设您想根据某些列的值对每个点进行不同的过滤或着色。例如,如果您想自动在它们旁边绘制满足某个截止点的点col1, col2的标签(标签存储在 df 的另一列中),或者对这些点进行不同的着色,就像人们对 R 中的数据框所做的那样。对于例子:

    mydata = df.dropna(how="any", subset=["col1", "col2"]) 
    myscatter = scatter(mydata[["col1", "col2"]], s=1)
    # Plot in red, with smaller size, all the points that 
    # have a col2 value greater than 0.5
    myscatter.replot(mydata["col2"] > 0.5, color="red", s=0.5)
    

如何才能做到这一点?

编辑回复 crubbum:

您说最好的方法是分别绘制每个条件(如subset_a, subset_b)。如果您有很多条件,例如,您想将散点分成 4 种类型甚至更多,并以不同的形状/颜色绘制每个点,该怎么办。您如何优雅地应用条件 a、b、c 等,并确保在最后一步绘制“其余”(不在任何这些条件下的事物)?

同样,在您的示例中,您col1,col2根据不同的方式进行绘图col3,如果有 NA 值破坏了 之间的关联col1,col2,col3怎么办?例如,如果您想col2根据它们的值绘制所有值col3,但某些行在col1or中具有 NA 值col3,则强制您首先使用dropna。所以你会这样做:

mydata = df.dropna(how="any", subset=["col1", "col2", "col3")

然后你可以像你展示的那样使用 - 绘制使用 的值mydata之间的散点图。但是会丢失一些具有值但 NA 的点,并且仍然必须绘制这些点......那么你将如何基本上绘制“其余”数据,即不在过滤集中的点?col1,col2col3mydatacol1,col2col3mydata

4

3 回答 3

120

尝试将 的列DataFrame直接传递给 matplotlib,如下例所示,而不是将它们提取为 numpy 数组。

df = pd.DataFrame(np.random.randn(10,2), columns=['col1','col2'])
df['col3'] = np.arange(len(df))**2 * 100 + 100

In [5]: df
Out[5]: 
       col1      col2  col3
0 -1.000075 -0.759910   100
1  0.510382  0.972615   200
2  1.872067 -0.731010   500
3  0.131612  1.075142  1000
4  1.497820  0.237024  1700

根据另一列改变散点大小

plt.scatter(df.col1, df.col2, s=df.col3)
# OR (with pandas 0.13 and up)
df.plot(kind='scatter', x='col1', y='col2', s=df.col3)

在此处输入图像描述

根据另一列改变散点颜色

colors = np.where(df.col3 > 300, 'r', 'k')
plt.scatter(df.col1, df.col2, s=120, c=colors)
# OR (with pandas 0.13 and up)
df.plot(kind='scatter', x='col1', y='col2', s=120, c=colors)

在此处输入图像描述

带有图例的散点图

但是,我发现创建带有图例的散点图的最简单方法是plt.scatter为每种点类型调用一次。

cond = df.col3 > 300
subset_a = df[cond].dropna()
subset_b = df[~cond].dropna()
plt.scatter(subset_a.col1, subset_a.col2, s=120, c='b', label='col3 > 300')
plt.scatter(subset_b.col1, subset_b.col2, s=60, c='r', label='col3 <= 300') 
plt.legend()

在此处输入图像描述

更新

据我所知,matplotlib 只是跳过具有 NA x/y 坐标或 NA 样式设置(例如,颜色/大小)的点。要查找由于 NA 而跳过的点,请尝试以下isnull方法:df[df.col3.isnull()]

要将点列表拆分为多种类型,请查看numpyselect,它是一个向量化的 if-then-else 实现,并接受可选的默认值。例如:

df['subset'] = np.select([df.col3 < 150, df.col3 < 400, df.col3 < 600],
                         [0, 1, 2], -1)
for color, label in zip('bgrm', [0, 1, 2, -1]):
    subset = df[df.subset == label]
    plt.scatter(subset.col1, subset.col2, s=120, c=color, label=str(label))
plt.legend()

在此处输入图像描述

于 2013-01-13T18:48:58.397 回答
7

Garrett 的出色答案几乎没有什么可补充的,但 pandas 也有一个scatter方法。使用它,就像

df = pd.DataFrame(np.random.randn(10,2), columns=['col1','col2'])
df['col3'] = np.arange(len(df))**2 * 100 + 100
df.plot.scatter('col1', 'col2', df['col3'])

将 col3 中的大小绘制到 col1-col2

于 2017-10-15T10:28:43.657 回答
5

我会建议使用另一种方法,使用seaborn更强大的数据绘图工具。您可以seaborn scatterplot将第 3 列使用和定义为huesize

工作代码:

import pandas as pd
import seaborn as sns
import numpy as np

#creating sample data 
sample_data={'col_name_1':np.random.rand(20),
      'col_name_2': np.random.rand(20),'col_name_3': np.arange(20)*100}
df= pd.DataFrame(sample_data)
sns.scatterplot(x="col_name_1", y="col_name_2", data=df, hue="col_name_3",size="col_name_3")

在此处输入图像描述

于 2019-06-23T10:55:37.177 回答