问题标签 [read.csv]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
843 浏览

r - 读取 53,000 MB 的 csv 文件

数据称为:data.csv

我尝试了 read.csv('data.csv') 并弹出一条错误消息,说文件太大。

我不确定如何在这种情况下使用 fread,因为当我尝试时:

那没有用。

有任何想法吗?

我最终尝试安装“bigmemory”包,但它说

0 投票
3 回答
2469 浏览

r - 从 R 读取 csv 文件

我是 R 新手,想阅读一个 csv 文件。但是当我尝试阅读它时出现错误。我的 csv 文件如下:

当我在 RStudio 中使用此命令时,出现错误:命令:

错误:

read.table 中的错误(file = file,header = header,sep = sep,quote = quote,:不允许重复的'row.names'

我也尝试删除错误并使用此命令:

但是当我查看输出时,它不能保持方阵的结构。你能帮我做什么吗?

0 投票
2 回答
59 浏览

r - 导入地址文本文件

我有一个包含几百万行的文本文件。每行应该有 10 个变量。它是逗号分隔的,但每隔一段时间,变量中间就会有一个逗号(例如:第 3 行,“BLDG #5,#104”应该是一个变量,但是当我使用read.csv()它导入时,一切都搞砸了) . 这是一个例子:

有关如何最好地导入此数据的任何建议?

0 投票
2 回答
2257 浏览

r - R:读取带逗号的数字和末尾带负号的负数

我在读取包含奇怪格式数字的 CSV 文件时遇到问题。我想将该值作为数字读入 R。

我通常使用 read.csv 将 CSV 文件读取到 DF 中。

问题是其中一列将该值作为因子变量读取。

示例:CSV 文件:

在我将其读入数据框后,结果是:

在上面说明的情况下,我想要以下输出:

其中列号将是数字类。

0 投票
1 回答
3259 浏览

r - Limited number of rows loaded from csv in R Studio

I've run into a very strange situation when I load a csv file into R Studio. When I try loading a file with ~190k records, only ~8k records show up in my dataframe.

I tried loading the data into R Studio on my Mac and everything works fine. I Googled the issue but wasn't able to find a solution.

Below are the specs of both machines:

PC - R + R Studio: latest version -

RAM: 8GB

MAC - R + R Studio: latest version -

RAM: 16GB

I've also tried various solutions like (quote = "") but this did not resolve the truncation. Perhaps I'm missing something very simple. Any ideas?

0 投票
1 回答
1185 浏览

r - 将某些 colClasses 设置为整数时,read.table 在看到引用的字段值时会抱怨

我正在通过使用 Lending Club 的历史贷款数据集来学习 R。这里有代表性的数据子集:https ://gist.github.com/adetch/11b1c2b6eac0b6add23f

有问题的命令:

我遇到的错误:

我使用以下命令遇到了类似的问题:

这种情况下的错误:

所以在我看来/似乎

  • Rinteger类与引号不兼容
  • 并且可能na.strings转换在扫描类之后运行,并且integer对空字符串的检查失败。

但是,其他列包裹在""诸如member_idloan_amnt被强制转换为integer没有抱怨(并且也没有任何特殊干预使用colClasses!)。

最接近的问题:

  • 如何将这些字段 ( id, mths_since_last_major_derog) 转换为整数,而不是因子(注意还有许多其他字段应该转换为因子)

更重要的是:

  • 我的类、类强制、read.table/read.csv 等心智模型在哪里R崩溃?
0 投票
0 回答
1489 浏览

r - 数据有逗号时 read.csv.sql 的问题

我正在尝试读取 .csv 文件,如下所示:

“姓名”、“地址”
、“我”、“我的地址、城市、州”

当我尝试

我收到一个错误:

似乎 read.csv.sql 无法识别我的 .csv 文件中的地址记录是一个观察值(而不是 3,给定逗号)。有没有办法避免这个问题?我查看了 read.csv.sql 的帮助文件,但似乎没有解决此问题的选项。

实际上,我有一个大文件,我只想读取列的一个子集。如果 R 中有其他可用的工具,我很乐意使用它而不是 read.csv.sql。

0 投票
0 回答
300 浏览

r - 为什么将 colClasses 指定为“字符”时 read.csv() 有时会出错?

read.csv()用来制作data.table. 导入列时,我需要将它们作为“字符”或“数字”导入。

我正在使用以下代码(为简洁起见进行了简化):

为方便起见,我希望将 dataCols 向量作为所有可能列的列表,因为我正在读取许多 csv 文件,这些文件代表流程各个部分的数据(我的代码旨在检查是否相等) .

如果我使用上面的代码来读取一个包含所有列 a、b、c 和 d 的 csv 文件,那么它读起来没问题。但是,如果我尝试读取仅包含 ac 列的 csv,则会收到以下错误:

其中“abc”是 b 列中第 1 行的内容。

我告诉它以字符的形式读取该列,并且它正在获取一个字符,但它给了我一个错误。为什么是这样?令人沮丧的是,当我前几天用不同的东西做这件事时,如果我在里面放了额外的 colClasses,只会给我一个警告,说“列出的 colclasses 比你的 csv 中存在的要多”。

我完全不知道为什么这些错误是 a) 不同的,并且在我上面描述的问题的情况下,甚至首先出现。

0 投票
1 回答
61 浏览

r - 省略 .csv 文件的某些行,编号较少。列并阅读其余部分

.csv我在一个包含订单报价和交易报价的文件中有高频数据。以下是 600,000 行数据集的前 13 行的示例:(对不起格式,复制/粘贴不适合一行中的所有列,因此我将它们隔开)

如您所见,此示例中的最后一行只有 5 列,而其他行则更多。只有 5 列的行是交易执行行,其余的是订单报价。基本上,我想读取csv文件,同时省略这些只有 5 列的交易行并读取文件的其余部分,这样我就可以开始分析Bid/Ask报价进行分析。

我尝试使用该read.csv()函数,但我似乎无法弄清楚如何对其进行编码以跳过交易行(5 列行)并且只读取订单报价,它读取所有内容并为我NaN提供交易行中的空列。我也尝试打开连接,然后使用扫描功能,但又遇到了同样的问题。有没有办法我可以if在那里的某个地方写一个声明并省略这些行或任何其他方式?

如果需要,数据格式如下:

或者

数据集中没有标题,对象由""

任何帮助将不胜感激。如果您需要更多信息,请告诉我。

0 投票
0 回答
686 浏览

r - R中的非英文字符

我有一个包含非英文字符的文件。

问题是我正在使用 R-studio 并尝试了我所知道的一切来显示非英文字符,但我看到的只是垃圾。

我也尝试过使用

和其他 read.csv 和 read.table 选项但无济于事。如果有帮助,我正在使用 R-studio。