与scipy 的差分进化 (DE) 实现不同,没有直接的方法来定义我在tensorflow-probability中的输入的界限。
由于我的函数的输入是定义图像中像素的 5 元组 (x,y,R,G,B),因此这些值需要是整数并限制到我的图像尺寸以及 0 到 255 的 RGB 值在优化过程中。
为了描绘更大的图景:我想最小化图像分类器的置信度,它本身是强化学习代理的一部分,需要根据对环境的观察来决定一个动作。该代理经过全面培训,但现在我想通过在其观察中扰乱单个像素来扔几块石头并监控其性能。
我想使用差分进化算法来找到最会降低代理对其行为的信心的像素。
目前我有一个动作预测函数,它将扰动像素作为参数,通过分类器运行扰动观察,并返回代理在没有扰动的情况下选择的动作的结果置信度:
代码块 I
#random perturbation pixel as an example of my input:
pixel = tf.constant([36,48,255,255,255]) # (x,y,R,G,B)
def predict_action(pixel):
perturbed_obs = perturb_obs(pixel, observation)
confidence = classifier(perturbed_obs)
return confidence
现在我想将此函数提供给具有初始种群的优化器:
代码块 II
popsize=80
init_pop = generate_population(popsize)
# returns Tensor("scan/while/Squeeze:0", shape=(80, 5), dtype=int64)
# i.e. 80 random perturbation pixels
results = tfp.optimizer.differential_evolution_minimize(
predict_action, initial_population=init_pop, seed=42)
然而,我如何定义我的输入范围,这样人口将始终是有效像素?
我在GitHub 上询问了这个问题,实现这一点的一种可能方法是使用他们的双射器功能:
代码块 III
# First we squash `pixel_logits` to (0, 1), then scale it to (0, 255).
bijector = tfb.Affine(scale=255.)(tfb.Sigmoid())
def unconstrained_objective_fn(pixel_logits):
return objective_fn(bijector.forward(pixel_logits))
results = minimize(unconstrained_objective_fn, initial_position=bijector.inverse(initial_pixels))
pixels = bijector.forward(results.position)
虽然我原则上理解这种方法,但我无法将其应用于我目前的情况/对我的问题的理解。
编辑:删除了与主要问题无关的信息。始终注意您的类型和尺寸!