MovieLens 数据集提供了一个包含列的表:
userid | movieid | tag | timestamp
我无法重现他们修剪 MovieLens 数据集的方式:
Tag Informed Collaborative Filtering,作者:Zhen、Li 和 Young
在上述论文的 4.1 Data Set 中,它写道“对于标签信息,我们只保留那些添加在至少 3 个不同电影上的标签。对于用户,我们只保留那些使用至少 3 个不同标签的用户他们的标签历史。对于电影,我们只保留那些被至少 3 个不同标签注释的电影。
我试图查询数据库:
select TMP.userid, count(*) as tagnum
from (select distinct T.userid as userid, T.tag as tag from tags T) AS TMP
group by TMP.userid
having tagnum >= 3;
我得到了一个包含 1760 个用户的列表,他们标记了 3 个不同的标签。但是,某些标签未添加到至少 3 部不同的电影上。
任何帮助表示赞赏。