4

我正在更详细地探索 Mahout in Action 中的一些代码示例。我已经建立了一个小测试来计算应用于我的数据的各种算法的 RMS。

当然,多个参数会影响 RMS,但我不理解运行评估时生成的“无法在...情况下推荐”消息。

查看 StatsCallable.java,这是在评估程序遇到 NaN 响应时生成的;训练集中的数据或用户偏好可能没有足够的数据来提供推荐。

似乎 RMS 分数不受大量“无法推荐”案例的影响。这个假设正确吗?我是否应该不仅在 RMS 上评估我的算法,还要评估“无法推荐”案例与我的整体训练集的比率?

我会很感激任何反馈。

4

1 回答 1

4

是的,这基本上意味着根本没有数据可以作为估计的基础。这通常是数据稀疏的症状。这应该很少见,并且只发生在数据非常少或与他人断开连接的用户身上。

我个人认为这没什么大不了的,除非它是一个非常重要的百分比(20%+?)如果你根本无法为许多用户生成任何记录,我会更担心。

于 2012-04-27T17:44:30.947 回答