0

嗨完整的新手问题:我有一个由两列组成的表。第一列属于“箱”,由果蝇居住的地方编码。第二列是 0 或 1,分别是中性和真正像糖。我有两个问题?

1)如果我怀疑只有一个变量,那就是他们居住的地方决定了他们是否喜欢糖。有没有办法让我的计算机只分成 2 个集群?所有喜欢糖和中性的垃圾箱。这样我们就可以做进一步的实验来确定这些垃圾箱是什么。

2) 自动确定可能有多少集群驱动了这种行为?例如,可能有 4 个变量(4 个集群)可以确定糖偏好的结果。

如果这是微不足道的,请道歉。下表列出。谢谢!

Bin sugar
1   1
1   1
1   0
1   0
2   1
2   0
2   0
3   1
3   0
3   1
3   1
4   1
4   1
4   1
5   1
5   0
5   1
6   0
6   0
6   0
7   0
7   1
7   1
8   1
8   0
8   1
9   1
9   0
9   0
9   0
10  0
10  0
10  0
11  1
11  1
11  1
12  0
12  0
12  0
12  0
13  0
13  0
13  1
13  0
13  0
14  0
14  0
14  0
14  0
15  1
15  0
15  0
16  1
16  1
17  1
17  1
18  0
18  1
18  1
17  1
19  1
20  1
20  0
20  0
20  1
21  0
21  0
21  1
21  0
22  1
22  0
22  1
22  1
23  1
23  1
24  1
24  0
25  0
25  1
25  0
26  1
26  1
27  1
27  1
4

1 回答 1

1

好的,假设我理解您的意思,应该使用贝叶斯过滤解决问题 1) 的一种方法。假设事件 L 是“一只苍蝇喜欢糖”,事件 B 是“一只苍蝇在 B 箱中”。

所以你有的是:

number of flies = 84    
size of each bins = (eg size of bin 1: 4)    

苍蝇喜欢糖的概率:

P(L) = flies that like sugar / total number of flies = 43/84

苍蝇不喜欢糖的概率:

P(notL) = 1 - P(L) = 41/84

苍蝇在给定箱中的概率:

P(B) = size of the bin / sum of the sizes of all bins = 4/84 (for bin 1)

苍蝇不在给定箱中的概率:

P(notB) = 1 - P(B) = 80/84 (for bin 1)

一只苍蝇喜欢糖的概率,知道它在 B 箱里:

P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)

一只苍蝇喜欢糖的概率,知道它不在 bin B 中:

P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80

您想知道知道喜欢糖的苍蝇在给定箱 B 中的概率,您可以通过以下方式获得:

P(B|L) = (P(L|B) * P(B)) / (P(L|B) * P(B) + P(L|notB) * P(notB))

如果你计算每个箱子的 P(B|L) 和 P(B|notL),那么你就知道哪个箱子最有可能包含喜欢糖的苍蝇。然后你可以进一步研究这些垃圾箱。

希望我很清楚,我的统计数据有点生疏,我什至不确定我做的一切是否正确。将其作为提示,为您指明解决问题的正确方向。

您可以参考此处以获得更准确的推理和结果。

至于问题2)......我必须多考虑一下。

于 2014-02-22T12:14:41.913 回答