1

我想对具有多个链的多元伯努利(维度 D)进行简单推断。下面的代码可以正常工作并正确推断出唯一链的参数值。我怀疑我错误地定义了我的模型。我没有找到任何简单的伯努利推理的简单例子。

返回的错误是: ValueError: Dimension must be 3 but is 2 for 'mcmc_sample_chain/simple_step_size_adaptation___init__/_bootstrap_results/mh_bootstrap_results/hmc_kernel_bootstrap_results/maybe_call_fn_and_grads/value_and_gradients/mcmc_sample_chain_simple_step_size_adaptation___init____bootstrap_results_mh_bootstrap_results_hmc_kernel_bootstrap_results_maybe_call_fn_and_grads_value_and_gradients_Samplemcmc_sample_chain_simple_step_size_adaptation___init____bootstrap_results_mh_bootstrap_results_hmc_kernel_bootstrap_results_maybe_call_fn_and_grads_value_and_gradients_Independentmcmc_sample_chain_simple_step_size_adaptation___init____bootstrap_results_mh_bootstrap_results_hmc_kernel_bootstrap_results_maybe_call_fn_and_grads_value_and_gradients_Bernoulli/log_prob/transpose' (op: 'Transpose') with input shapes: [1,5000,2], [2].

这是一个简单的例子,D=2 和 N = 5000(训练集中的样本数)。

import numpy as np 
import tensorflow as tf
import tensorflow_probability as tfp
import functools
tfd = tfp.distributions

# ---------- DATA Generator ------------#

def generate_bernouilli(N,p):
    return np.array([np.random.binomial(size=N, n=1, p = probability) for probability in p ]).T

D = 2
N = 5000
p = np.sort(np.random.random(D))

observations = generate_bernouilli(N,p)

# ---------- Model ------------#

def make_likelihood(theta):
    one_y = tfd.Independent(
        distribution = tfd.Bernoulli(probs=theta),
        reinterpreted_batch_ndims=1)
    y = tfd.Sample(one_y,
          sample_shape=(N,))
    return y

def joint_log_prob(observations, theta):
    return (tf.reduce_sum(make_likelihood(theta).log_prob(observations)))

posterior_log_prob = functools.partial(joint_log_prob, observations)


# ---------- MCMC sampling  ------------#

num_results = int(10e3)
num_burnin_steps = int(1e3)
n_chains = 5

adaptive_hmc = tfp.mcmc.SimpleStepSizeAdaptation(
    tfp.mcmc.HamiltonianMonteCarlo(
        target_log_prob_fn=posterior_log_prob,
        num_leapfrog_steps=3,
        step_size=1.),
    target_accept_prob=tf.constant(.8),
    num_adaptation_steps=int(num_burnin_steps * 0.8))


@tf.function
def run_chain():
# Run the chain (with burn-in).
    samples, is_accepted = tfp.mcmc.sample_chain(
    num_results=num_results,
    num_burnin_steps=num_burnin_steps,
    current_state=tf.ones([n_chains,2])/10,
    kernel=adaptive_hmc,
    trace_fn=lambda _, pkr: pkr.inner_results.is_accepted)

    is_accepted = tf.reduce_mean(tf.cast(is_accepted, dtype=tf.float32))
    return samples, is_accepted


# ---------- Run  ------------#
with tf.device('/CPU:0'):
    samples, is_accepted = run_chain()

如果我们将 current_state 替换为current_state=tf.ones([2])/10(并因此删除了独立的链式采样),则代码可以完美运行。

我有几个问题,我将非常感谢任何帮助: + 我的模型是否正确实施?+ 有没有办法在 tf 中调试这种类型的错误?python 调试器没有多大帮助。

提前致谢 !

4

1 回答 1

0

首先,我显然不是张量流概率方面的专家,所以这个答案很可能不是最佳实践,我只是利用我对图书馆的有限知识,同时尝试自己学习更多张量流概率。

其次,我的目标只是回答关于模型及其实现的部分问题,关于调试 tensorflow 的答案,或者谷歌一下,看看是否有一些关于它的教程,或者根据我的感觉提出另一个问题这是一个完全不同的问题。

关于该模型,它看起来实现得很好,而且我能够在没有太大变化的情况下使其工作,但是,theta出于两个原因,我建议明确使用先验。第一个是即使您没有设置它,也会使用先验(通常统一是一个常数,在这种情况下绝对是统一先验,并且是无界统一先验)并且您可能不知道它是哪个是或假设您使用的模型与实施的模型不同。第二个是在使用不适合手头问题的先验时,您可能会遇到意想不到的问题。例如,这里theta是一个维度向量,D它必须介于0和之间1,但是,在您的实现theta中可以采用超出此范围的值;幸运的是,如果 a 的参数tfd.Bernoulliis outside (0,1)tensorflow 只是返回nan,但情况可能并非总是如此,它可能会引发错误(这将在 theta 位于外部的随机(0,1)迭代中触发),或者您可能只是在正面概率为 时得到难以理解的结果1.3

因此,我添加了一个先验并修改了代码的以下几点:

  • 我添加了一个额外的维度,observations以便可以正确广播
  • 我使用了distribution.log_prob()log_prob不是tfd.Sample。我曾尝试log_prob直接使用,但我无法理解其tfd.Sample工作原理以及它对log_prog原始发行版的影响,因此我选择了我更了解的内容。
  • 我将轴设置为tf.reduce_sum. 这没有给出任何错误,因为log_prob之前执行过并且失败了,但它会因为使用多个链时,每个链都是独立的,因此每个链都有其对数后验概率。posterior_log_prob必须返回一个长度的张量n_chains,而不是一个标量。

这是省略未修改部分的结果代码:

observations = generate_bernouilli(N,p)[:, None, :]

# ---------- Model ------------#

def make_prior(D):
    one_theta = tfd.Independent(
        distribution=tfd.Uniform(low=tf.zeros(D)),
        reinterpreted_batch_ndims=1
    )
    return one_theta

def make_likelihood(theta):
    one_y = tfd.Independent(
        distribution = tfd.Bernoulli(probs=theta),
        reinterpreted_batch_ndims=1
    )
    y = tfd.Sample(
          one_y,
          sample_shape=(N,)
    )
    return y

def joint_log_prob(observations, D, theta):
    return (
        make_prior(D).log_prob(theta) + 
        tf.reduce_sum(
            make_likelihood(theta).distribution.log_prob(observations), 
            axis=0
        )
    )

posterior_log_prob = functools.partial(joint_log_prob, observations, D)

# Small comment, for coherence I would also modify the following line
current_state=tf.ones([n_chains,D])/10, 
# otherwise, D != 2 would not work
于 2019-10-26T13:01:19.917 回答