你是一架飞机跟踪一艘穿越海洋的敌舰,所以你已经收集了这艘船的一系列 (x,y,time) 坐标。你知道一艘隐藏的潜艇会和船一起旅行以保护它,但是虽然它们的位置之间存在相关性,但潜艇经常会从船上徘徊,所以虽然它经常靠近它,但它也可能在它的另一侧世界偶尔。您想预测潜艇的路径,但不幸的是它对您隐藏。
但在 4 月的某个月,您注意到潜艇忘记隐藏自己,因此在 1,000 次航行中,您拥有潜艇和船的一系列坐标。使用这些数据,您想建立一个模型,仅根据船的运动来预测隐藏潜艇的路径。幼稚的基线会说“潜艇位置猜测=”船的当前位置”,但从 4 月份潜艇可见的数据中,您注意到潜艇有领先于船舶的趋势,所以“潜艇位置“guess = ship's position in 1 minute”是一个更好的估计。此外,4月份的数据显示,当船在水中停留较长时间时,潜艇很可能在远处巡逻沿海水域。还有其他模式当然。
给定 4 月份的数据作为训练数据,你将如何构建这个模型来预测潜艇的路径?我目前的解决方案是一个特别的线性回归,其中因素是“行程时间”、“货船的 x 坐标”、“货船闲置 1 天”等,然后让 R 计算权重并进行交叉-验证。但我真的很想有一种方法可以从 4 月的数据中自动生成这些因素。此外,使用序列或时间的模型会很好,因为线性回归没有,我认为它是相关的。
编辑:我用虚构的故事重新阐述了这个问题,所以它不那么令人困惑。我发布的原始问题是:
我有两个科目的眼球追踪数据——一个老师和一个学生。它采用 (x, y, time) 的形式,因此每个主题都有一系列这些。老师看什么会影响学生看什么。我将使用什么方法来预测学生正在看什么,只使用教师数据?假设我可以使用一组黄金标准的学生和教师数据来训练一些学习算法。
鉴于维基百科中的定义,我认为隐藏马尔可夫模型是合适的,但我不确定如何在我的数据集上将其付诸实践。
更多细节:我有关于教师和学生如何查看地图和一些读数的数据。我有 40 个这样的数据集,它们看起来像 [(366,234,0), (386,234,5), ...] 这意味着老师在 0 时间查看点 (366,234),然后 5 秒后向上移动查看坐标 (386, 234)。我可以学习一个模型来理解老师如何看待内容之间的关系,以预测学生如何看待相同的内容。所以也许学生看内容的顺序与老师相同,但速度较慢。或者也许学生没有四处张望,但老师扫描了更多的内容。我有两组数据,想看看我能得到的模型有多准确——我能在老师看起来行为的 50 像素内预测学生的观察行为吗?