我有一个带有评论者和评论的数据框,我在其上执行主题建模。由于模型的原因,我不得不将所有评论转换成一大串句子。我在其上进行了聚类。现在,我想为每个评论者分配一个集群。
第一个是原始数据帧,第二个是聚类后的输出。我有一本字典,键是作者的索引,值是这个人评论的评论数(超过 3 个单词)。现在我想为每个评论者分配一个集群,但我不确定如何,因为索引显然不再匹配了。所以我的问题是:如何根据字典中的值分配索引。
我有一个带有评论者和评论的数据框,我在其上执行主题建模。由于模型的原因,我不得不将所有评论转换成一大串句子。我在其上进行了聚类。现在,我想为每个评论者分配一个集群。
第一个是原始数据帧,第二个是聚类后的输出。我有一本字典,键是作者的索引,值是这个人评论的评论数(超过 3 个单词)。现在我想为每个评论者分配一个集群,但我不确定如何,因为索引显然不再匹配了。所以我的问题是:如何根据字典中的值分配索引。
如果您可以提供一个更完整的示例,其中包含您从哪里开始、您在哪里结束以及您想要获得的输出的确切字符串,这将有所帮助。看起来sentence和text是相同的,不包括括号。如果是这种情况,那么您可以将其用作键。通常,该功能应该保持订单或允许您传递一些附加信息,以便您可以加入它。检查聚类功能的文档。如果它不这样做,那么在将文本数组转换为字符串后,它至少应该将您输入的可用作键的句子返回给您:
df1.merge(df2[[‘sentence’, ‘cluster_id’]],
left_on=[‘text’], right_on=[‘sentence’], how=‘left’)
更复杂的情况是作者有不止一个句子。在这些情况下,不同的句子可能属于不同的集群。它仍然可以加入,但您需要考虑如何处理此类情况。