我想在文章发布平台之上构建一个分析引擎。更具体地说,我想跟踪用户的阅读行为(例如文章的浏览次数、打开文章所花费的时间、评分等),以及文章本身的统计信息(例如段落数、作者等) )。
这将有两个目的:
- 提供有关用户和文章的见解
- 向用户提供建议
对于数据分析部分,我一直在研究cubes、pandas和pytables。数据很多,存储在 MySQL 表中;我不确定这些软件包中的哪一个会更好地处理这样的后端。
对于推荐部分,我只是考虑将数据从数据分析引擎提供给聚类模型。
关于如何将所有这些放在一起的任何建议,以及可以帮助我的很酷的 python 项目?如果我应该提供更多信息,请告诉我。
谢谢