1

我有两个数据集。第一个是:

countyGroup income  other_data_
    1       20990   …
    2       25622   …
    3       24289   …
    4       27391   …
    5       23326   …
    6       19261   …
    7       15197   …
    8       11132   …

第二个是:

countyGroup state   county  other_data
    1       IL      123     …
    1       IL      123     …
    2       MI      365     …
    1       IL      123     …
    3       AK      65      …
    4       IL      546     …
    5       MI      689     …
    6       AK      32      …

变量countyGroup唯一标识statecounty。第二个数据集包含countyGroup和。第一个数据集仅包含. 我需要在第一个数据集中生成两个变量 (和)。statecountycountyGroupstatecounty

我尝试使用以下方法匹配值merge

use dataset1
merge 1:m countyGroup using dataset2, keepusing(state state cntyfp) update replace

我得到的结果是重复的行......我试过1:1它没有工作......我总是可以drop那些重复的行,但我想从一开始就正确合并它们。

4

1 回答 1

3

我们需要了解重复行(Stata 的术语是“观察”)。如果它们在所有变量上都相同,则没有额外的信息,并且duplicates dropmerge.

duplicates是管理重复项的通用工具。

如果其他变量有不同的信息,请在此处告诉我们更多关于这是什么以及您的目标的信息。

(稍后)使用您发布的数据集

   merge 1:m countyGroup using dataset2

似乎工作正常。

于 2013-06-08T09:52:35.243 回答