首先让我描述一下设置:我们在 Unity 中有一个自治代理,其决策基于感知环境(级别)和一些用于值映射的预定义参数。我们的目标是在 DNN 中预训练代理的参数。所以这个想法基本上是定义一个错误度量来评估代理在 Unity 模拟中的性能(运行关卡,例如测量与最优轨迹的偏差 = 统一的基本事实)。因此,根据 DNN 的输入级别,网络应该训练输出参数,执行模拟并将误差作为误差值(如准确度)传回网络,因此网络可以根据该误差进行训练/表现。
在 Keras 之外的训练期间,有什么方法可以进行评估(与基本事实的比较)?通常,一个人将 X 数据传递给网络,训练东西并将其与基本事实 Y 进行比较。这对于预测很有效,但我不想预测某些东西。我想要的是测量模拟中与基本事实的偏差。我知道有 Unity ML 代理,但据我所知,“大脑”在运行时控制代理,即在每一帧更新它并控制运动。我想要的是执行整个模拟以更新网络的参数/权重。
最好的祝愿。