我有两个宽格式数据集。两者共享一个公共索引列,我想将两个数据集组合成一个基于该公共列的宽格式数据集。下面提供了数据集的示例。
设数据集 A 为:
其中第 1 列是文档列表,宽列是在这些文档中找到的主题(如果文档提到主题,则为 1,否则为 0)
并且让数据集 B 为:
其中第 1 列与数据集 A 中的列表相同,其他列是国家/地区。值是该文档对该特定国家的“重要程度”的自定义代码(例如,5 非常重要,1 不重要,0 表示不参与文档)。
我想将两者组合成一个单一的宽数据集,其中行是国家,列是主题。单元格内的值将等于一个国家通过文档参与主题的情况总和,由数据集 B 上的“重要性”编码加权。
完成的数据集如下所示:
例如,AFG 仅参与了文件 A/C.3/64/L.6,重要性为 5,由于该文件仅提及“获取信息”,AFG 对该主题的参与度为 5。反过来,参与在所有文件中,因此获得了与主题“绑架”(1*5=5)、“堕胎”(1*1=1)、“学历”(1*1 + 1*2=3)和“访问信息”(1*4=4)。
问题是完整的数据集 A 和 B 分别有超过 1k 个主题和 190 个国家。所以我需要找到一种自动化的方式来进行这种合并。我将不胜感激有关如何在 Excel 或 R 上执行此操作的建议。
非常感谢