python - 如何使用 pymc 为贝叶斯网络制作条件概率表 (CPT)

Question

我想建立一个依赖于其他分类变量的离散（pymc.Categorical）变量的贝叶斯网络。作为一个最简单的例子，假设变量a和b是分类变量，并且b取决于a

这是使用 pymc 对其进行编码的尝试（假设a采用三个值之一，b采用四个值之一）。想法是使用 pymc 从数据中学习 CPT 分布。

import numpy as np
import pymc as pm
aRange = 3
bRange = 4

#make variable a
a = pm.Categorical('a',pm.Dirichlet('aCPT',np.ones(aRange)/aRange))

#make a CPT table as an array of 
CPTLines = np.empty(aRange, dtype=object)
for i in range(aRange):
    CPTLines[i] = pm.Dirichlet('CPTLine%i' %i,np.ones(bRange)/bRange)

#make a deterministic node that holds the relevant CPT line (dependent on state1)
@pm.deterministic
def selectedCPTLine(CPTLines=CPTLines,a=a):
    return CPTLines[a]

#make a node for variable b 
b=pm.Categorical('b', selectedCPTLine)

model = pm.MCMC([a, b, selectedCPTLine])

如果我们绘制这个模型，它看起来像这样

然而，运行这段代码我们得到一个错误：

Probabilities in categorical_like sum to [ 0.8603345]

显然，pymc 可以将 Dirichlet 变量作为分类变量的参数。当 Categorical 变量将 Dirichlet 变量作为其参数时，它知道期望 k-1 个概率向量，并假设第 k 个概率将向量求和为 1。但是，当 Dirichlet 变量是一个确定性变量，这是我制作 CPT 所需要的。

我会以正确的方式解决这个问题吗？如何解决表示不匹配的问题？我应该提一下，我对 pymc 和 Python 比较陌生。

这个问题与上一个关于使用 pymc 制作离散状态马尔可夫模型的问题有关

score 2 · Accepted Answer

好，谢谢。问题是，虽然通常 PyMC 会将 Dirichlet 识别为分类的父级并完成概率单纯形，但在这里您的分类嵌入在容器中，分类不会进行所需的自动调整。以下代码为您执行此操作：

import numpy as np
import pymc as pm
aRange = 3
bRange = 4

aCPT = pm.Dirichlet('aCPT', np.ones(aRange))

#make variable a
a = pm.Categorical('a', aCPT)

#make a CPT table as an array of
CPTLines = [pm.Dirichlet('CPTLine%i' %i, np.ones(bRange)) for i in range(aRange)]

#make a node for variable b
@pm.stochastic(dtype=int)
def b(value=0, CPT=CPTLines, a=a):
    return pm.categorical_like(value, p=pm.extend_dirichlet(CPT[a]))

model = pm.MCMC([a, b, CPTLines])

希望有帮助。

score 0 · Accepted Answer

几个混淆点：

您的模型似乎不包含数据（观察到的随机变量），因此没有适合模型的信息
不确定 Dirichlet 变量是确定性的输出是什么意思。只要概率的长度为 k-1 并且它们的总和小于 1，那么您应该是好的。如果你有一个总和为单位的值，你可以只传递值的前 k-1 个。

python - 如何使用 pymc 为贝叶斯网络制作条件概率表 (CPT)

2 回答 2

Related

Reference