我对社交网络游戏玩家之间的模式挖掘问题很感兴趣。例如,给定公司的用户数据库,检测游戏的作弊者。到目前为止,我一直在遵循数据挖掘项目的常规方法:
- 构建一个聚合重要信息的数据仓库
- 选择一个分类器,并使用仓库中的记录子部分对其进行训练
- 用另一个测试集验证分类器
- 起泡、冲洗、重复
令人惊讶的是,我在这方面的文献、最佳实践等方面几乎没有发现什么。我希望在这里众包信息收集问题。具体来说,我在寻找什么:
- 分类器为这种类型的模式挖掘工作(它似乎是高度临时的,用户玩游戏,用户获得奖励,用户转移奖品等)。
- 是否有任何高度一致的特定于社交网络/游戏数据的属性?
- 应该考虑的实际信息量是多少?我遇到的一个问题是数据过载,其中查询和数据清理可能需要数天才能完成。
- 与上述有关,产生结果需要哪些硬件资源?我发现很难估计生产使用所需的计算能力。很明显,角落里的白盒子没有足够的马力来完成这样的项目。公司是否普遍采用云解决方案?他们在购买集群吗?
基本上,任何关于实施社交网络/游戏模式挖掘程序的资源(理论、学术或实践)都将非常感激。
谢谢。