我有一个大型数据集,每行包含 3 个属性:A、B、C
A 列:可以取值 1、2 和 0。 B 列和 C 列:可以取任何值。
我想使用 P(A = 2 | B,C) 的直方图执行密度估计,并使用 python 绘制结果。
我不需要代码来做到这一点,我可以自己尝试解决。我只需要知道我应该使用的程序和工具吗?
我有一个大型数据集,每行包含 3 个属性:A、B、C
A 列:可以取值 1、2 和 0。 B 列和 C 列:可以取任何值。
我想使用 P(A = 2 | B,C) 的直方图执行密度估计,并使用 python 绘制结果。
我不需要代码来做到这一点,我可以自己尝试解决。我只需要知道我应该使用的程序和工具吗?
要回答您的整体问题,我们应该通过不同的步骤并回答不同的问题:
如何读取 csv 文件(或文本数据)?
如何过滤数据?
如何绘制数据?
在每个阶段,你需要使用一些技术和特定的工具,在不同的阶段你可能也会有不同的选择(你可以在网上寻找不同的选择)。
1- 如何读取 csv 文件:
有一个内置函数可以遍历存储数据的 csv 文件。但大多数人推荐Pandas处理 csv 文件。
安装 Pandas 包后,您可以使用Read_CSV命令读取您的 csv 文件。
import pandas as pd
df= pd.read_csv("file.csv")
由于您没有共享 csv 文件,我将制作一个随机数据集来解释接下来的步骤。
import pandas as pd
import numpy as np
t= [1,1,1,2,0,1,1,0,0,2,1,1,2,0,0,0,0,1,1,1]
df = pd.DataFrame(np.random.randn(20, 2), columns=list('AC'))
df['B']=t #put a random column with only 0,1,2 values, then insert it to the dataframe
注意:Numpy是一个 python 包。使用数学运算很有帮助。您主要不需要它,但我在这里提到它是为了消除混乱。
如果您在这种情况下打印 df ,您将得到以下结果:
A C B
0 -0.090162 0.035458 1
1 2.068328 -0.357626 1
2 -0.476045 -1.217848 1
3 -0.405150 -1.111787 2
4 0.502283 1.586743 0
5 1.822558 -0.398833 1
6 0.367663 0.305023 1
7 2.731756 0.563161 0
8 2.096459 1.323511 0
9 1.386778 -1.774599 2
10 -0.512147 -0.677339 1
11 -0.091165 0.587496 1
12 -0.264265 1.216617 2
13 1.731371 -0.906727 0
14 0.969974 1.305460 0
15 -0.795679 -0.707238 0
16 0.274473 1.842542 0
17 0.771794 -1.726273 1
18 0.126508 -0.206365 1
19 0.622025 -0.322115 1
2- - 如何过滤数据:过滤数据有不同的技术。最简单的方法是选择数据框中的列名称+条件。在我们的例子中,标准是在 B 列中选择值“2”。
l= df[df['B']==2]
print l
您还可以使用 groupby、lambda 等其他方式遍历数据框并应用不同的条件来过滤数据。
for key in df.groupby('B'):
print key
如果您运行上述脚本,您将获得:
对于第一个:只有 B==2 的数据
A C B
3 -0.405150 -1.111787 2
9 1.386778 -1.774599 2
12 -0.264265 1.216617 2
对于第二个:打印结果分组。
(0, A C B
4 0.502283 1.586743 0
7 2.731756 0.563161 0
8 2.096459 1.323511 0
13 1.731371 -0.906727 0
14 0.969974 1.305460 0
15 -0.795679 -0.707238 0
16 0.274473 1.842542 0)
(1, A C B
0 -0.090162 0.035458 1
1 2.068328 -0.357626 1
2 -0.476045 -1.217848 1
5 1.822558 -0.398833 1
6 0.367663 0.305023 1
10 -0.512147 -0.677339 1
11 -0.091165 0.587496 1
17 0.771794 -1.726273 1
18 0.126508 -0.206365 1
19 0.622025 -0.322115 1)
(2, A C B
3 -0.405150 -1.111787 2
9 1.386778 -1.774599 2
12 -0.264265 1.216617 2)
绘制数据的最简单方法是使用matplotlib
在 B 列中绘制数据的最简单方法是运行:
import random
import matplotlib.pyplot as plt
xbins=range(0,len(l))
plt.hist(df.B, bins=20, color='blue')
plt.show()
你会得到这个结果:
如果你想绘制组合的结果,你应该使用不同的颜色/技术来使它有用。
import numpy as np
import matplotlib.pyplot as plt
a = df.A
b = df.B
c = df.C
t= range(20)
plt.plot(t, a, 'r--', b, 'bs--', c, 'g^--')
plt.legend()
plt.show()
结果你会得到:
绘制数据是由特定需求驱动的。您可以通过marplotlib.org 官网的示例来探索绘制数据的不同方式。
如果您正在寻找比使用直方图进行非参数密度估计更复杂的事情的其他工具,请查看此指向 python 存储库的链接或直接安装软件包
pip install cde
除了广泛的文档之外,该包还实现了
此外,该软件包还允许计算中心矩、统计散度(kl-divergence、hellinger、jensen-shannon)、百分位数、预期不足和数据生成过程(arma-jump、jump-diffusion、GMM 等)
免责声明:我是软件包开发人员之一。