Readr 是一个很棒的软件包。但是人们懒得为每一列指定数据类型。(例如,满分 30 分)。
检查解析失败可能会发现只有一列是关键问题。
请看下面
fname='c:/q/net/SnomedCT_RF2Release_INT_20160131/Full/Terminology/sct2_Concept_Full_INT_20160131.txt'
> snm<-read_delim(fname,delim='\t')
Warning: 4016 parsing failures.
row col expected actual
528950 id an integer 11000119105
528951 id an integer 11000119105
528952 id an integer 41000119109
528953 id an integer 61000119108
528954 id an integer 81000119104
...... ... .......... ...........
.See problems(...) for more details.
> probs<-problems(snm)
> table(probs$col)
id
4016
>
如何在我的数据集中仅指定一列(在我的情况下为列 id)的数据类型。(成为性格)
names(snm)
[1] "id" "effectiveTime" "active" "moduleId" "definitionStatusId"