r - 数据整理：如何将两个宽格式数据集合并为一个

Question

我有两个宽格式数据集。两者共享一个公共索引列，我想将两个数据集组合成一个基于该公共列的宽格式数据集。下面提供了数据集的示例。

设数据集 A 为：

其中第 1 列是文档列表，宽列是在这些文档中找到的主题（如果文档提到主题，则为 1，否则为 0）

并且让数据集 B 为：

其中第 1 列与数据集 A 中的列表相同，其他列是国家/地区。值是该文档对该特定国家的“重要程度”的自定义代码（例如，5 非常重要，1 不重要，0 表示不参与文档）。

我想将两者组合成一个单一的宽数据集，其中行是国家，列是主题。单元格内的值将等于一个国家通过文档参与主题的情况总和，由数据集 B 上的“重要性”编码加权。

完成的数据集如下所示：

例如，AFG 仅参与了文件 A/C.3/64/L.6，重要性为 5，由于该文件仅提及“获取信息”，AFG 对该主题的参与度为 5。反过来，参与在所有文件中，因此获得了与主题“绑架”（1*5=5）、“堕胎”（1*1=1）、“学历”（1*1 + 1*2=3）和“访问信息”（1*4=4）。

问题是完整的数据集 A 和 B 分别有超过 1k 个主题和 190 个国家。所以我需要找到一种自动化的方式来进行这种合并。我将不胜感激有关如何在 Excel 或 R 上执行此操作的建议。

非常感谢

score 1 · Accepted Answer

首先我建议你看看是什么让整洁的数据，你应该有一个名为“国家”的列，而不是国家的行。

尝试使用 tidyverse 中的“dplyr”包...

inner_join('Dataset A','Dataset B", by = "column_name")

score 1 · Accepted Answer

对于您的示例数据，假设 A 和 B 具有相同的行且顺序相同，以下代码将为您提供所需的输出。

t(t(as.matrix(A[,-1])) %*% as.matrix(B[,-1]))

    abduction abortion academic access
AFG         0        0        0      5
AGO         0        4        4      0
ALB         0        3        3      1
AND         5        1        3      4

这使用矩阵乘法。

对于您的真实数据集（1K 个主题和 190 个国家/地区），您必须检查它们是否包含相同数量的行，并且它们是否基于公共索引列的顺序相同。如果没有，那么您只需要保留那些具有相同的记录，然后按该公共索引列对它们进行排序。那是微不足道的。

数据

> A
  id abduction abortion academic access
1  A         1        0        0      0
2  B         0        1        1      0
3  C         0        0        1      0
4  D         0        0        0      1

> B
  id AFG AGO ALB AND
1  A   0   0   0   5
2  B   0   4   3   1
3  C   0   0   0   2
4  D   5   0   1   4

A <- structure(list(id = structure(1:4, .Label = c("A", "B", "C", 
"D"), class = "factor"), abduction = c(1, 0, 0, 0), abortion = c(0, 
1, 0, 0), academic = c(0, 1, 1, 0), access = c(0, 0, 0, 1)), row.names = c(NA, 
-4L), class = "data.frame")

B <- structure(list(id = structure(1:4, .Label = c("A", "B", "C", 
"D"), class = "factor"), AFG = c(0, 0, 0, 5), AGO = c(0, 4, 0, 
0), ALB = c(0, 3, 0, 1), AND = c(5, 1, 2, 4)), row.names = c(NA, 
-4L), class = "data.frame")