我有一个包含数百列的数据集。它包含邮件列表数据,其中一些列似乎彼此完全相同,但形式不同。
例如:
rowNum StateCode StateName StateAbbreviation
1 01 UTAH UT
2 01 UTAH UT
3 03 TEXAS TX
4 03 TEXAS TX
5 03 TEXAS TX
6 44 OHIO OH
7 44 OHIO OH
8 44 OHIO OH
... ... ... ...
我想删除重叠数据并尽可能保留数字列,以便只有一列包含相同的信息。因此,上面的示例将变为:
rowNum StateCode
1 01
2 01
3 03
4 03
5 03
6 44
7 44
8 44
... ...
我试过使用cor()
,但这仅适用于数字变量。我已经尝试过caret::nearZeroVar()
,但这仅适用于列本身。
是否有人对查找涉及非数字数据的完全相关列有任何建议?
谢谢。