1

我有一个来自国家机构的数据集,正在尝试清理它。一个障碍是没有标题的输入标准(例如,DIR、DIRECTOR、DIR.,都是允许的输入)。另一个障碍是,一个人可能有多个职位,但只输入其中一个。

例如,考虑下面的员工 #1 (Emp_1)。此人是教员。他们年复一年地教书。但在 2015 年,除了教学职责外,他们还承担了一些被归类为非教师或豁免的工作。但他们的“真正”分类是教师。在此示例中,已为 Emp_1 提供了两条记录。我做了一个快速的 grep 来创建一个名为“job.cat”的新分类,以帮助识别教师。但是在下面的 Emp_1 和 Emp_4 的情况下,您可以看到它们被错误地归类为“非教师”。现在,我可以对“STIPEND/COORD FAC,EXMT EMP”做一个 grep 并将其也算作教员,但是有些人从不教书并且总是“STIPEND/COORD FAC,EXMT EMP”,所以应该是算作非教职员工。

为了解决这个问题,我想我应该创建第二个名称、职位和职位类别的数据集,清理它,然后将其合并回下面的数据,我将使用employee_name 和正确的工作加入。猫。但我想知道是否有更好的方法可以使用类似函数、ifelse 或 for 循环来执行此操作。

d <- read.table(text = 'employee_name   job_title   Salary_2012 Salary_2013 Salary_2014 Salary_2015 job.cat
Emp_1   FACULTY 31200   37400   33300   NA  Faculty
Emp_1   "STIPEND/COORD FAC,EXMT EMP"  NA  NA  NA  37300   Non-fac
Emp_2   FACULTY 29300   28400   31800   NA Faculty
Emp_2   "PART TIME FACULTY"   NA  NA  NA  30800   Faculty
Emp_3   FACULTY NA  NA  4300    NA  Faculty
Emp_4   FACULTY 50000   59900   31300   NA  Faculty
Emp_4   "STIPEND/COORD FAC,EXMT EMP"  NA  NA  NA  22000   Non-fac', header = TRUE)
4

1 回答 1

0

我认为您可以通过将结果分组来解决此问题employee_name,检查该员工是否有任何教职员工,然后将其定义为教职员工:

library(dplyr)
d %>% 
  group_by(employee_name) %>% 
  mutate(job.cat = ifelse(any(grep("FACULTY",job_title)),"Faculty", "Non-fac"))

您的其他问题可能有类似的解决方案:

d %>% 
  group_by(employee_name) %>% 
  mutate(job_title = ifelse(any(grep("DIR",job_title)),"Director", job_title))
于 2016-11-23T19:56:26.197 回答