-2

我正在尝试将 CSV 文件导入 R 以使用线性/逻辑回归进行欺诈分析。本来应该很简单的事情现在变得复杂了……这个数据集包含 26 个变量和超过 200 万行。我使用此命令行导入 CSV 文件:

data <- read.csv('C:/Users/amartinezsistac/OneDrive/PROYECTO/decla_cata_filtrados.csv',header=TRUE,sep=";")

尽管如此,R 仅在 1 个变量中导入了 230 万行。我附上了此步骤后获得的一个图片View(data)获取更多信息。我试过从 sep=";" 切换 到 sep="," 使用:

datos <- read.csv('C:/Users/amartinezsistac/OneDrive/PROYECTO/decla_cata_filtrados.csv',header=TRUE,sep=",")

但收到此错误消息:

Error in read.table(file = file, header = header, sep = sep, quote = quote,  : 
  more columns than column names

我尝试将 read.csv 更改为 read.csv2(结果为 230 万行和 1 个变量);或使用 fill=TRUE 选项(结果相同),但导入不正确。我附上了在 Excel 中打开的原始 CSV 外观的另一张图片。Excel 中的原始 CSV

我提前感谢任何建议或帮助解决它。

4

2 回答 2

6

将问题分解为您可以检查的步骤 - 最初我会尝试类似

file <- 'C:/Users/amartinezsistac/OneDrive/PROYECTO/decla_cata_filtrados.csv'
read.csv(file, header=F, skip=1, sep=',', nrow=1)

如果这产生了一个 1 行 26 列的 data.frame,那么您就在做生意,如果没有,请再次检查 read.csv 的参数,看看是否有任何参数需要为您的文件更改。

现在进展到

read.csv(file, header=T, skip=0, sep=',', nrow=1)

这应该为您提供相同的一行 data.frame,但列名正确 - 如果不检查 csv 文件在第一行中的列数是否正确,或者在您阅读后继续跳过标题并分配列名它在。

现在增加nrow,最初增加到 10,然后可能增加 10 倍,直到您读入整个文件,或者遇到问题。使用二分搜索来查找导致问题的确切行,方法是设置nrow在您知道有效的值与找到确切问题行之前无效的值之间。

请参阅 Excel 中的 csv 以查看此行的特殊之处 - 它是否有奇怪的字符、不匹配的引号、更少的条目……这将影响您解决问题的方式。

重复直到你的整个文件读入!

于 2015-03-17T15:15:04.077 回答
2

从excel截图来看,你文件的第一行数据有31列;第二个有 29 ......我的猜测是你的 csv 文件有一个逗号作为列分隔符和一个逗号作为小数分隔符。您必须通过使小数点和列分隔符不同来将文件重新导出到 csv。

于 2015-03-17T15:34:51.663 回答