问题标签 [read.csv]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 读取 53,000 MB 的 csv 文件
数据称为:data.csv
我尝试了 read.csv('data.csv') 并弹出一条错误消息,说文件太大。
我不确定如何在这种情况下使用 fread,因为当我尝试时:
那没有用。
有任何想法吗?
我最终尝试安装“bigmemory”包,但它说
r - 从 R 读取 csv 文件
我是 R 新手,想阅读一个 csv 文件。但是当我尝试阅读它时出现错误。我的 csv 文件如下:
当我在 RStudio 中使用此命令时,出现错误:命令:
错误:
read.table 中的错误(file = file,header = header,sep = sep,quote = quote,:不允许重复的'row.names'
我也尝试删除错误并使用此命令:
但是当我查看输出时,它不能保持方阵的结构。你能帮我做什么吗?
r - 导入地址文本文件
我有一个包含几百万行的文本文件。每行应该有 10 个变量。它是逗号分隔的,但每隔一段时间,变量中间就会有一个逗号(例如:第 3 行,“BLDG #5,#104”应该是一个变量,但是当我使用read.csv()
它导入时,一切都搞砸了) . 这是一个例子:
有关如何最好地导入此数据的任何建议?
r - R:读取带逗号的数字和末尾带负号的负数
我在读取包含奇怪格式数字的 CSV 文件时遇到问题。我想将该值作为数字读入 R。
我通常使用 read.csv 将 CSV 文件读取到 DF 中。
问题是其中一列将该值作为因子变量读取。
示例:CSV 文件:
在我将其读入数据框后,结果是:
在上面说明的情况下,我想要以下输出:
其中列号将是数字类。
r - Limited number of rows loaded from csv in R Studio
I've run into a very strange situation when I load a csv file into R Studio. When I try loading a file with ~190k records, only ~8k records show up in my dataframe.
I tried loading the data into R Studio on my Mac and everything works fine. I Googled the issue but wasn't able to find a solution.
Below are the specs of both machines:
PC - R + R Studio: latest version -
RAM: 8GB
MAC - R + R Studio: latest version -
RAM: 16GB
I've also tried various solutions like (quote = "") but this did not resolve the truncation. Perhaps I'm missing something very simple. Any ideas?
r - 将某些 colClasses 设置为整数时,read.table 在看到引用的字段值时会抱怨
我正在通过使用 Lending Club 的历史贷款数据集来学习 R。这里有代表性的数据子集:https ://gist.github.com/adetch/11b1c2b6eac0b6add23f
有问题的命令:
我遇到的错误:
我使用以下命令遇到了类似的问题:
这种情况下的错误:
所以在我看来/似乎
R
的integer
类与引号不兼容- 并且可能
na.strings
转换在扫描类之后运行,并且integer
对空字符串的检查失败。
但是,其他列包裹在""
诸如member_id
和loan_amnt
被强制转换为integer
没有抱怨(并且也没有任何特殊干预使用colClasses
!)。
最接近的问题:
- 如何将这些字段 (
id
,mths_since_last_major_derog
) 转换为整数,而不是因子(注意还有许多其他字段应该转换为因子)
更重要的是:
- 我的类、类强制、read.table/read.csv 等心智模型在哪里
R
崩溃?
r - 数据有逗号时 read.csv.sql 的问题
我正在尝试读取 .csv 文件,如下所示:
“姓名”、“地址”
、“我”、“我的地址、城市、州”
当我尝试
我收到一个错误:
似乎 read.csv.sql 无法识别我的 .csv 文件中的地址记录是一个观察值(而不是 3,给定逗号)。有没有办法避免这个问题?我查看了 read.csv.sql 的帮助文件,但似乎没有解决此问题的选项。
实际上,我有一个大文件,我只想读取列的一个子集。如果 R 中有其他可用的工具,我很乐意使用它而不是 read.csv.sql。
r - 为什么将 colClasses 指定为“字符”时 read.csv() 有时会出错?
我read.csv()
用来制作data.table
. 导入列时,我需要将它们作为“字符”或“数字”导入。
我正在使用以下代码(为简洁起见进行了简化):
为方便起见,我希望将 dataCols 向量作为所有可能列的列表,因为我正在读取许多 csv 文件,这些文件代表流程各个部分的数据(我的代码旨在检查是否相等) .
如果我使用上面的代码来读取一个包含所有列 a、b、c 和 d 的 csv 文件,那么它读起来没问题。但是,如果我尝试读取仅包含 ac 列的 csv,则会收到以下错误:
其中“abc”是 b 列中第 1 行的内容。
我告诉它以字符的形式读取该列,并且它正在获取一个字符,但它给了我一个错误。为什么是这样?令人沮丧的是,当我前几天用不同的东西做这件事时,如果我在里面放了额外的 colClasses,只会给我一个警告,说“列出的 colclasses 比你的 csv 中存在的要多”。
我完全不知道为什么这些错误是 a) 不同的,并且在我上面描述的问题的情况下,甚至首先出现。
r - 省略 .csv 文件的某些行,编号较少。列并阅读其余部分
.csv
我在一个包含订单报价和交易报价的文件中有高频数据。以下是 600,000 行数据集的前 13 行的示例:(对不起格式,复制/粘贴不适合一行中的所有列,因此我将它们隔开)
如您所见,此示例中的最后一行只有 5 列,而其他行则更多。只有 5 列的行是交易执行行,其余的是订单报价。基本上,我想读取csv
文件,同时省略这些只有 5 列的交易行并读取文件的其余部分,这样我就可以开始分析Bid
/Ask
报价进行分析。
我尝试使用该read.csv()
函数,但我似乎无法弄清楚如何对其进行编码以跳过交易行(5 列行)并且只读取订单报价,它读取所有内容并为我NaN
提供交易行中的空列。我也尝试打开连接,然后使用扫描功能,但又遇到了同样的问题。有没有办法我可以if
在那里的某个地方写一个声明并省略这些行或任何其他方式?
如果需要,数据格式如下:
或者
数据集中没有标题,对象由""
任何帮助将不胜感激。如果您需要更多信息,请告诉我。
r - R中的非英文字符
我有一个包含非英文字符的文件。
问题是我正在使用 R-studio 并尝试了我所知道的一切来显示非英文字符,但我看到的只是垃圾。
我也尝试过使用
和其他 read.csv 和 read.table 选项但无济于事。如果有帮助,我正在使用 R-studio。