-4

我不确定这是否适用于StackOverflow程序员,但由于它更倾向于实施,我在这里问它。

我正在寻找一种可以接受n输入(所有浮点数)并产生m(所有浮点数;m < n)输出的算法。然后可以使用一种适应度分数来训练这个系统,以学习输入和输出之间的相关性。

用于此目的的最佳算法是什么?


一点上下文: 我想使用机器学习而不是自创算法,因为我不知道数据之间的(完全)相关性,我知道机器学习算法的结果是否好并从那里训练它。

我有几个变量要传递,例如:

  • 只有我知道的信息(信心 0-1
  • 所有人都知道的关于我的信息(资源和以前的成就 0-1
  • 我正在调查的人的风险状况(分别基于其他玩家 0-1
  • 我正在调查的人的行为概况(分别基于其他玩家 0-1
  • 我正在调查的玩家拥有的资源(分别 0-1
  • 玩家总数(基于允许的最大玩家数 0-1
  • 结果预测(偏差 0-1

输出应该是:

  • 采取的行动(从“什么都不做”到“迅速行动” 0-1
  • 采取的行动量(从“不多”到“你能做的最多” 0-1

我有非常大的数据集可以处理,所以理想情况下建议的算法也可以持久化。


我见过像人工神经网络这样的算法,但它们不允许适应度得分,因为它们需要将输入和输出耦合在一起。我不能提供,我只能计算这些数字正确的机会(健身分数——设计上永远不会>= 1

4

1 回答 1

1

从描述来看,它看起来像是强化学习的经典问题,你确实有一些代理执行动作(这里定义为动作+强度,但这仍然是一个动作),它改变了代理的一些内部状态并获得(在某个时刻最少)奖励。

有很多方法可以从您的环境中学习一个好的策略(选择特定操作的规则),包括(但不限于):

  • Q-学习
  • MDP(马尔可夫决策过程)
  • 蒙特卡罗方法
于 2016-01-12T19:43:50.050 回答