Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一个由分类属性和连续属性组成的数据集。我想应用朴素贝叶斯分类方法对数据进行分类。
如何计算这两种类型的概率?
我应该使用计数方法计算分类数据并假设一些分布并根据连续数据计算吗?
由于朴素贝叶斯假设每个特征观察的独立性给定您拥有的类标签
P(cat1, con1|y) = P(cat1|y)P(con1|y)
其中cat1是一些分类变量并且con1是连续的,您可以完全独立地对这些概率中的每一个进行建模。正如您所建议的那样,对于分类您可以使用简单的经验估计器(但是请记住一些平滑技术,因此您不会得到 0 概率),对于连续您需要一些更复杂的估计器(例如使用固定分布族的 MLE - 例如高斯;或更复杂的东西 - 作为任何概率分类器/模型)
cat1
con1