1

我得到了一个非常粗糙的数据集。一个数据集为我提供了每个 X 变量的代码(一个 4 位代码),然后是一个解释每个代码含义的文本文件。奇怪的是,一个代码可能意味着什么,或者一个范围可能意味着同样的事情。例如:

X
2321
2322
2341
2520
2572
4000
4001
4002
4100

文本文件是这样的:

2300-2372 = New York
2520      = Chicago
2572      = Denver
4000-4099 = Austin
4100-4200 = San Diego

我想要一种简单的方法来对给出的 Stata 文件进行编码,而无需创建 100 行代码。因为我有超过 1000 个分类和大约一百万个观察值。

4

1 回答 1

1

使用inrange

gen austin = 0
replace austin = 1 if inrange(X, 4000,4099)

对于这里有一个代码然后使范围在同一点开始和停止的城市

于 2013-01-30T07:06:32.110 回答