pandas - 根据字典熊猫数据框中的值分配索引

Question

我有一个带有评论者和评论的数据框，我在其上执行主题建模。由于模型的原因，我不得不将所有评论转换成一大串句子。我在其上进行了聚类。现在，我想为每个评论者分配一个集群。

我有两个数据框：

第一个是原始数据帧，第二个是聚类后的输出。我有一本字典，键是作者的索引，值是这个人评论的评论数（超过 3 个单词）。现在我想为每个评论者分配一个集群，但我不确定如何，因为索引显然不再匹配了。所以我的问题是：如何根据字典中的值分配索引。

score 0 · Accepted Answer

如果您可以提供一个更完整的示例，其中包含您从哪里开始、您在哪里结束以及您想要获得的输出的确切字符串，这将有所帮助。看起来sentence和text是相同的，不包括括号。如果是这种情况，那么您可以将其用作键。通常，该功能应该保持订单或允许您传递一些附加信息，以便您可以加入它。检查聚类功能的文档。如果它不这样做，那么在将文本数组转换为字符串后，它至少应该将您输入的可用作键的句子返回给您：

df1.merge(df2[[‘sentence’, ‘cluster_id’]],
          left_on=[‘text’], right_on=[‘sentence’], how=‘left’)

更复杂的情况是作者有不止一个句子。在这些情况下，不同的句子可能属于不同的集群。它仍然可以加入，但您需要考虑如何处理此类情况。

pandas - 根据字典熊猫数据框中的值分配索引

1 回答 1

Related

Reference