我正在尝试从数据集中提取电影类型的字符串。数据采用以下格式,其中流派类型由不同的评论者随机分布在数据集中。幸运的是,数据集中只有 4 种流派类型(喜剧、动作、恐怖、科幻),但也有重复。所以我需要从数据集中提取这些字符串。
id movie v1 v2 v3 v4 v5 v6
1 LTR comedy highbudget action comedy jj horror
2 MI newmovie fiction scifi funny xx jhee
我期待以下形式的输出。
id movie genretype1 genretype2 genretype3 genretype4
1 LTR comedy action comedy horror
2 MI scifi --- --- ---
有什么建议么?