16

我有一个包含许多缺失值的 .csv 数据集,我希望 R 在读取表格时以相同的方式(“正确”方式)识别它们。我一直在使用:

import = read.csv("/Users/dataset.csv", 
                  header =T, na.strings=c(""))

这个脚本用一些东西填充所有的空单元格,但它并不一致。当我用 来查看数据时head(import),一些缺失的单元格被填充,<NA>一些缺失的单元格被填充NA。我担心 R 在开始分析数据集时会以不同的方式处理这两种识别缺失值的方法,因此我希望导入统一读取这些缺失值。

最后,我的 csv 文件中的一些缺失值仅用句点表示。当我导入到 R 时,我还希望这些句点由正确的缺失值表示法表示。

4

2 回答 2

21

<NA>vsNA仅表示您的某些列是字符,而某些列是数字,仅此而已。绝对没有错。

正如 Ben 上面提到的,如果 csv 中的某些缺失值由单个句点 表示.,那么您可以通过以下方式指定应视为NAs 的值向量:

na.strings=c("",".","NA")

作为read.csv.

于 2013-07-07T01:59:10.737 回答
0

您还可以使用更灵活的readr包,其等效函数和参数是read_csv()and na

library(readr)
read_csv("file.csv", na = c(".", ".."))
于 2019-07-03T09:47:15.930 回答