我有大量文件,每个文件都采用制表符分隔的格式。我需要对这些文件中的每一个应用一些建模(glm/gbm 等)。它们是从医院数据中获得的,在特殊情况下,条目可能不是正确的格式。例如,在glucose
为患者输入级别时,数据输入操作员可能输入N
或A
错误输入而不是实际数字。
在循环读取这些文件时,我遇到了问题,因为这些列(葡萄糖)被视为因素,而它应该是一个数字。调查每个文件并查找错误是很痛苦的。我正在通过以下方式阅读文件,但这肯定不是一个好方法。
read.table(fn, header = TRUE, sep= "\t" , na.strings = c('', 'NEG', 'TR', 'NA', '<NA>', "Done", "D", "A"))
是否有任何其他功能可以让我假设这些值/异常值是na
?