我正在使用 MovieLens 100K 数据集。我想要一个图表来可视化女性用户最喜欢的电影类型。目前,这通过总结他们对特定类型的电影评分的次数(意味着他们参与了该类型)来起作用。然而,考虑到一些女性用户给出的评分比其他用户更多,结果可能不是很真实。也许有一位女性用户非常喜欢“戏剧”并给了100个评分。有什么方法可以规范化这些数据并真实表示最喜欢的类型?
plt.figure(figsize=(18,10))
for column in all_female_users[['Action', 'Adventure' , 'Animation' ,
'Childrens' , 'Comedy' , 'Crime' , 'Documentary' , 'Drama' , 'Fantasy' ,
'Film-Noir' , 'Horror' , 'Musical' , 'Mystery' , 'Romance' , 'Sci-Fi' ,
'Thriller' , 'War' , 'Western']]:
# Select column contents by column name using [] operator
columnSeriesObj = all_female_users[column]
plt.bar(column, columnSeriesObj.sum())
plt.xlabel("Movie Genre")
plt.ylabel("Number of preferred times")
plt.title("Most preferred movie genres by women")
# print('Movie Genre:', column)
# print('Move Genre Sum:', columnSeriesObj.sum())