我有一个数据集的问题。在那里我有好的和坏的类别,在那个类别中,很少有可以是好的和坏的元素....
您可以查看我附加的 ven 图以获取视图和我拥有的数据集。如果你能帮助我,我真的很高兴。
我对概率和数学的东西真的很陌生,但是我有一个项目要做,在中间我必须找到一种方法来根据数据说给定的数据集是坏的还是好的。
我可以使用什么概率论?如何使用...请举一个使用我的数据集的例子。谢谢你
例如。如果我得到一个包含 A、D、E 元素的数据集......我可以说它是坏的概率是多少。
我有一个数据集的问题。在那里我有好的和坏的类别,在那个类别中,很少有可以是好的和坏的元素....
您可以查看我附加的 ven 图以获取视图和我拥有的数据集。如果你能帮助我,我真的很高兴。
我对概率和数学的东西真的很陌生,但是我有一个项目要做,在中间我必须找到一种方法来根据数据说给定的数据集是坏的还是好的。
我可以使用什么概率论?如何使用...请举一个使用我的数据集的例子。谢谢你
例如。如果我得到一个包含 A、D、E 元素的数据集......我可以说它是坏的概率是多少。
给出好/坏结果的函数称为分类函数。对于任何数据集,都有很多方法可以构建分类函数。例如,参见 Brian Ripley 的“模式识别和机器学习”。
一种容易理解的方法是所谓的二次判别式。很容易描述:(1)为每个类别(好、坏等)构建一个高斯密度。(2) 输出新输入概率最大的类别。
(1) 只需计算每个类别中数据的均值和协方差矩阵。这给了你 p(x | category)。
(2) 选择使 p(category | x) 最大的类别。注意 p(category | x) = p(x | category) p(category) / sum_i (p(x | category_i) p(category_i)),其中 p(category) 就是(类别中的数据数量)/(数量所有数据)。如果您使用对数,您可以稍微简化计算。
这样的函数可以用具有矩阵运算的编程语言(例如 Octave 或 R)的几行代码来构建。