r - R中的CSV文件导入

Question

我正在尝试将 CSV 文件导入 R 以使用线性/逻辑回归进行欺诈分析。本来应该很简单的事情现在变得复杂了……这个数据集包含 26 个变量和超过 200 万行。我使用此命令行导入 CSV 文件：

data <- read.csv('C:/Users/amartinezsistac/OneDrive/PROYECTO/decla_cata_filtrados.csv',header=TRUE,sep=";")

尽管如此，R 仅在 1 个变量中导入了 230 万行。我附上了此步骤后获得的一个以View(data)获取更多信息。我试过从 sep=";" 切换到 sep="," 使用：

datos <- read.csv('C:/Users/amartinezsistac/OneDrive/PROYECTO/decla_cata_filtrados.csv',header=TRUE,sep=",")

但收到此错误消息：

Error in read.table(file = file, header = header, sep = sep, quote = quote,  : 
  more columns than column names

我尝试将 read.csv 更改为 read.csv2（结果为 230 万行和 1 个变量）；或使用 fill=TRUE 选项（结果相同），但导入不正确。我附上了在 Excel 中打开的原始 CSV 外观的另一张图片。 Excel 中的原始 CSV

我提前感谢任何建议或帮助解决它。

score 6 · Accepted Answer

将问题分解为您可以检查的步骤 - 最初我会尝试类似

file <- 'C:/Users/amartinezsistac/OneDrive/PROYECTO/decla_cata_filtrados.csv'
read.csv(file, header=F, skip=1, sep=',', nrow=1)

如果这产生了一个 1 行 26 列的 data.frame，那么您就在做生意，如果没有，请再次检查 read.csv 的参数，看看是否有任何参数需要为您的文件更改。

现在进展到

read.csv(file, header=T, skip=0, sep=',', nrow=1)

这应该为您提供相同的一行 data.frame，但列名正确 - 如果不检查 csv 文件在第一行中的列数是否正确，或者在您阅读后继续跳过标题并分配列名它在。

现在增加nrow，最初增加到 10，然后可能增加 10 倍，直到您读入整个文件，或者遇到问题。使用二分搜索来查找导致问题的确切行，方法是设置nrow在您知道有效的值与找到确切问题行之前无效的值之间。

请参阅 Excel 中的 csv 以查看此行的特殊之处 - 它是否有奇怪的字符、不匹配的引号、更少的条目……这将影响您解决问题的方式。

重复直到你的整个文件读入！

score 2 · Accepted Answer

从excel截图来看，你文件的第一行数据有31列；第二个有 29 ......我的猜测是你的 csv 文件有一个逗号作为列分隔符和一个逗号作为小数分隔符。您必须通过使小数点和列分隔符不同来将文件重新导出到 csv。

2 回答 2