r - 读取 .csv 时用 NA 替换缺失值的最佳方法是什么？

Question

我有一个包含许多缺失值的 .csv 数据集，我希望 R 在读取表格时以相同的方式（“正确”方式）识别它们。我一直在使用：

import = read.csv("/Users/dataset.csv", 
                  header =T, na.strings=c(""))

这个脚本用一些东西填充所有的空单元格，但它并不一致。当我用来查看数据时head(import)，一些缺失的单元格被填充，<NA>一些缺失的单元格被填充NA。我担心 R 在开始分析数据集时会以不同的方式处理这两种识别缺失值的方法，因此我希望导入统一读取这些缺失值。

最后，我的 csv 文件中的一些缺失值仅用句点表示。当我导入到 R 时，我还希望这些句点由正确的缺失值表示法表示。

score 21 · Accepted Answer

<NA>vsNA仅表示您的某些列是字符，而某些列是数字，仅此而已。绝对没有错。

正如 Ben 上面提到的，如果 csv 中的某些缺失值由单个句点表示.，那么您可以通过以下方式指定应视为NAs 的值向量：

na.strings=c("",".","NA")

作为read.csv.

score 0 · Accepted Answer

您还可以使用更灵活的readr包，其等效函数和参数是read_csv()and na。

library(readr)
read_csv("file.csv", na = c(".", ".."))

2 回答 2