我得到了一个非常粗糙的数据集。一个数据集为我提供了每个 X 变量的代码(一个 4 位代码),然后是一个解释每个代码含义的文本文件。奇怪的是,一个代码可能意味着什么,或者一个范围可能意味着同样的事情。例如:
X
2321
2322
2341
2520
2572
4000
4001
4002
4100
文本文件是这样的:
2300-2372 = New York
2520 = Chicago
2572 = Denver
4000-4099 = Austin
4100-4200 = San Diego
我想要一种简单的方法来对给出的 Stata 文件进行编码,而无需创建 100 行代码。因为我有超过 1000 个分类和大约一百万个观察值。