我试图使用来自 2013 年行为风险因素监测系统数据集的数据来查看教育水平和胆固醇意识之间是否存在任何相关性。The contents of the data can be checked from the link down below: https://d18ky98rnyall9.cloudfront.net/_e34476fda339107329fc316d1f98e042_brfss_codebook.html?Expires=1541203200&Signature=WYq5YJFg5WgVOFV4dWPV~pPtu-31ubNEVxEYlNliJZpqZYXfZ741WN9n~RC~kcF0gE6AdxzzNFbiA7nv5DtQsxeWWs1Y9obwadm2PjV8eO~W0TI0YtyU~vmaWgozEkfbzIB17LP0MFY-dUffEsyb29~~JWYnQXHAZXdm -n5q108_&Key-Pair-Id=APKAJLTNE6QMUY6HBC5A##sleptim1
我在 EDA 中使用了两个变量:“educa”(教育水平)和“cholchk”(检查胆固醇以来的时间)。这是我创建的代码:
> q1 <- select(brfss2013, cholchk, educa) %>%
filter(!is.na(cholchk), !is.na(educa))
> q1 %>% group_by(cholchk) %>% summary(count=n())
> ggplot(data = q1, aes(x = educa, y = cholchk)) +
geom_point(shape=1) +
geom_smooth(method=1) +
xlab("educa = Education Level") +
ylab ("cholchk: How Long Since Cholesterol Checked")
图表已成功创建。但是图表上的所有点都以固定间隔分布(?),因此无法检查相关性。你能给我一些建议,让我看起来比这更好吗?
我不知道如何在我的问题上上传“.RData”文件。所以这是我能做的最好的。
cholchk
过去一年内:321955
过去 2 年内:49354
过去 5 年内:
29870 5 年或更多年前:15683
educa
从未上过学或只上过幼儿园:463
1 至 8 年级(小学):10189
9 至 11 年级(一些高中):21173
12 年级或 GED(高中毕业生):117152
大学 1 年至 3 年(一些大学或技校):113993
大专4年以上(大专毕业):153892