因此,我在 Stata 中有一个数据集,其中有一个名为“程序描述”的变量,该变量具有非常相似的观察结果,尽管观察结果不遵循任何模式。我的目标是清理变量,以便非常相似的观察结果具有相同的名称。
以下是变量的示例:
Variable Name
phys ed
physical education
phys ed k-12
learning disabilities
learn dis
learn disable
因此,我希望前三个被称为“phys ed”(或它的某种派生词),后三个被称为“学习障碍”
我一直在使用该函数strpos()
来替换包含某些短语的观察值,但由于变量有 100k 观察值和许多不同的名称,这需要一段时间。