我有以下问题:
我想创建一个散点矩阵。作为输入,我有 df(形状:20000x5),另外我想要为 2 个不同的列(“预测”和“衍生”)着色。
列预测有 3 个值,列导数有 2 个值:预测 = [0,1,2] 导数 = [x8,x1]
我想要一个有 6 种颜色的 scatter_matrix,例如:
深绿色: derivate_x8 和 prediction_0 / 亮绿色: derivate_x1 和 prediction_0
深红色: derivate_x8 和 prediction_1 / 亮红色: derivate_x1 和 prediction_1
深蓝色: derivate_x8 和 prediction_2 / 亮蓝色: derivate_x1 和 prediction_2
到目前为止,这是我的代码:
def plot_kmeans_g01_g08_all(input):
df = input
df_select = input['prediction', 'derivate']
pd.plotting.scatter_matrix(df, alpha=0.8, hist_kwds={'bins':30}, c=df_select, figsize=[12,10], cmap='brg')
# Legend
handles = [plt.plot([],[],color=plt.cm.brg(i/2.), ls="", marker=".", markersize=np.sqrt(10))[0] for i in range(3)]
labels=["G0", "G1", "G2"]
plt.legend(handles, labels, loc=(1.02,0))
# Run plot
plt.tight_layout()
plt.show()
不幸的是,它不是这样工作的。没有seaborn,没有情节,我怎么能解决这个问题?作为一个包,我可以使用 pandas、pyspark 和 sklearn。
但我只能访问一列(预测)。我很想拥有这个 scatter_matrix,但有 6 种不同的颜色。
提前致谢