我正在使用强化学习方法(Q、sarsa、TD(λ)、Actor-Critic、R 等)进行关于机器人感觉运动在线学习的硕士项目。我目前正在设计将使用更高级别的强化学习和更低级别的机器人 API 控制的框架。
由于状态依赖于机器人传感器并且可能(将)呈指数增长,因此我将在堆上分配它们。由于这会产生很多问题、错误等,并且由于并行化(即线程)是我想要探索的强化学习的一个方面,所以我还不确定要使用哪种智能指针。
为智能指针设计我自己的模板/类需要时间和调试,而我没有。所以,我想知道,我应该使用 STLauto_ptr
吗?我看到他们在向量中使用了问题。我应该使用boost::shared_ptr
吗?这些状态必须在许多类和算法之间共享。还是我应该使用boost::ptr_vector
?由于状态将驻留在向量中的任务容器类中,这是否足够?状态必须是共享的、可复制的、可引用的、可序列化的、非常量的、线程安全的并且不会被删除。此外,内存空间和计算时间也很重要。
对于此类任务,您推荐什么作为最佳智能 ptr 实现?
谢谢!
看来我将不得不尝试将 boost::ptr_vector 与类 State 一起使用,如果这证明效率不高,则使用 std::vector < std::unique_ptr > 并启用 0X。谢谢大家的回答和建议!