dataset - 推荐系统需要多少数据？

Question

我必须为人力资源部门开发个性/工作适合性在线测试。基本上，用户会回答问题，例如 0-10 的等级，在说 50 个问题之后，我想将其转化为 5 种不同性格/工作适合性特征的评级。

我没有任何真正的数据可以开始，所以首先，使用像 MyMediaLite (github) 这样的推荐引擎是否值得。我需要多少样本才能训练它达到不错的性能？

我之前建立了一个培训课程推荐器，通过简单地做和手工加权求和，其中每个问题增加了与该问题相关的几门课程的权重。这是一个专家系统，像前馈神经网络一样构建，我根据我对问题和课程内容的了解，亲自调整了所有权重。

这次我想使用推荐系统，但我想知道我必须参加多少次 50 题测试，然后手动分配结果。100个例子可以吗？这是可能的。1000 太长了。我怎么能提前知道？

score 1 · Accepted Answer

虽然没用，但我想说这不可能给出一个确定的数字。添加新样本时，您应该关注学习曲线。

您可以手动和引擎并行处理样本，并比较两者给出的结果。一旦引擎给出的结果的召回率和精度等测量达到您的期望，那么您将获得足够的样本。

希望这有帮助！

1 回答 1