0

输送机布局。 A 和 B 入口点以及 C 和 D 出口点。 X位置有一个十字路口

这是一个传送系统。盒子在 A 处进入系统并移向 C 处离开系统。B->D 也是如此。

路径 A->C 上的框比框 B->D 具有更高的优先级。盒子可以在每个广场停下来等待。如果 A2 和 B2 上都有一个框,则 A2 中的那个应该首先通过 X。

如果 C2、C1、A2 和 B2 上有盒子,那么来自 B2 的盒子应该经过 X,而 A2 上的盒子应该等待,直到 C1 为空。否则它将阻塞路径 B->D。

如何用神经网络解决这个问题? 因此,对于每一轮我都想输入每个块的当前状态,因此我想从下一个框应该移动的位置到哪里。

例如:系统状态:BOX 出现在 A1 结果:A1、A2

我不知道神经网络是否是解决这个问题的好工具,但我只是好奇。感谢您的输入:)

4

1 回答 1

1

您正在寻找的是一种将状态映射到行动的策略。

虽然您可以使用神经网络来存储您的策略,但您需要某种方式与环境交互以收集数据。

您所描述的是一个典型的强化学习问题。我建议你看看Q-learning。对于状态空间的大小,您可以轻松地将策略存储在表格中,但如果您愿意,神经网络也很容易与 Q-learning 结合(尽管在使用非线性近似方案时不能保证收敛)。

于 2016-02-26T12:05:27.010 回答