问题标签 [read.csv]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 将多行文本块读入R中的单个向量
我有一个包含大的多行文本块的文件。我想将文件读入一个字符向量列表——每个块一个。我阅读有关 scan()、read.table() 等函数的文档似乎表明行尾将结束向量。是否有一些选项或其他功能允许我指定分隔字符并且在遇到该字符之前不会转到新向量?
r - fread:将某些行读取为隐式排序因子
我对R相当陌生,最近一直在使用 data.table 进行一个涉及大型数据集(特别是基因组数据)操作的项目。其中一列是染色体编号/名称,格式为“chr_”,其中 _ 为 1-22、X 或 Y。由于数据按染色体位置排序,因此这是我的数据的自然主键. 但是,将此设置为键会产生不需要的结果,即按字典顺序而不是一般数字顺序排序(即顺序是 1,10,11,...,19,2,20,...,X,Y 而不是大于 1,2,...,9,10,11,...,19,20,...,X,Y)。我查看了 factor() 函数的文档,其中包括一个 option ordered
,它按顺序隐式读取因子级别。但是,我不知道指定染色体列应该是有序因子,因为唯一相关的选项是 stringsAsFactors(这会将所有字符串转换为因子,考虑到其他列中非唯一字符串的数量,这将非常低效)和 colClasses,我不知道任何转换方法列隐式排序的因素。
有谁知道 fread() 的隐式排序因子的实现,或者 data.table 将字符列转换为有序因子的任何有效方法?
笔记:
我主要在寻找最有效的实现,最好是在读取过程中直接将列转换为有序因子的实现。
r - Read.csv() throws error
I have been trying to read the excel file but seems like there is something wrong. The file is stored in Documents folder in excel format.
These are the error messages that I get :
also, since these were warnings , I happened to ignore them. But nothing has been read into "table" either:
r - 跳过 read.csv 中的所有前导空行
我希望将 csv 文件导入 R,第一个非空行提供数据框列的名称。我知道您可以提供skip = 0
参数来指定首先读取哪一行。但是,第一个非空行的行号可以在文件之间更改。
如何计算出有多少行是空的,并为每个文件动态跳过它们?
正如评论中所指出的,我需要澄清“空白”的含义。我的 csv 文件如下所示:
这意味着开头有一行逗号。
r - read.csv 用 `.` 替换列名字符,例如 `?`,用 `...` 替换 `-`
我正在使用 RStudio,我在控制台上的输出被截断。我找不到如何停止截断(我尝试搜索?options
和谷歌搜索的时间比我想承认的要长)。
编辑:我向大家道歉!我最初的长名称为“ThisIsAReallyReallyReallyReallyReallyLongName”,但问题只是出现了“翻译服务信息 - 哪个翻译服务?”的长名称。我想我找到了问题所在。...
不是截断,而是用 and 替换未知字符,如?
and 。-
.
...
代码
我想取回未截断的版本mycolnames[2]
(例如“ThisIsAReallyReallyReallyReallyReallyLongName”)
设置
我使用的是 Windows 7 64 位,RStudio 版本 0.98.1091,R 版本 3.0.1 (2013-05-16)——“Good Sport”,平台:x86_64-w64-mingw32/x64(64 位)。我尝试打开和关闭“使用 Git Bash 作为 Git 项目的外壳”。
我的文件.csv
r - 在 r 中分成列 - 分隔符更改
我想将单个列中包含的值拆分为新列。
我在文件中有一些看起来像这样的数据:
> df
V1
1 00006303657102064942660780914135165036 12867 15476 15473 15474 15397 14050
2 00006319625527159782351492300309533775 12867 15473 13678 13497 15397
3 00006327933867965144524703512179615086 12867 14245 15397 15473 15474
我想将每个值分成一个新列:V1、V2、V3、V4、V5 和 V6
我试过了 :
df2 <- data.frame(do.call('rbind', strsplit(as.character(df$V1), ' ', fixed = FALSE)))
我最终得到这样的输出:
X1 X2 X3 X4 X5 X6
1 00006303657102064942660780914135165036 12867 15476 15473 15474 15397
2 00006319625527159782351492300309533775 12867 15473 13678 13497 15397
3 00006327933867965144524703512179615086 12867 14245 15397 15473 15474
X7 X8
1 14050 00006303657102064942660780914135165036
2 00006319625527159782351492300309533775 12867
3 00006327933867965144524703512179615086 12867
一些 v1 值最终出现在其他列中。这可能会发生,因为行尾没有空间。我怎样才能正确执行这个?
谢谢
r - 函数 ff:read.csv.ffdf(ff - R 包)中 colClasses 参数的当前状态
由于以下代码vmode 'character' not implemented
中的参数而发生错误:colClasses=c("id"="character")
read.table.ffdf 1..1000 (1000) csv-read=0.02secError in ff(initdata = initdata, length = length, levels = levels, ordered = ordered, :
vmode 'character' 未实现
其中第一列TenGBsample.csv
是“id”,由 30 位数字组成,超过了我的 64 位系统(Windows)上的最大数字,我想将它们作为字符处理,第二列包含小数字,所以不需要调整。
我已经检查过,并且有“字符”模式:http vmode
: //127.0.0.1 :16624/library/ff/html/vmode.html
r - R read.dta 和 unz 不工作
我从压缩源将很多文件读入 R。我尝试使用 R 函数unz
从压缩文件中读取,因为与解压缩不同,它不会在我的硬盘上留下任何解压缩文件。
但是,这似乎不适用于压缩*.dta
(Stata)文件:
很抱歉使用了相当大的世界发展指标数据库(其 40+ MB),但我没有找到任何更好的工作示例。
该代码在读取时会产生错误pwt_unz
,[编辑:但在读取时不会pwt_unzip
]。那里有什么问题?可能unz
与read.dta的输入不兼容的返回值有关?
r - R read.csv 没有加载 .tsv 文件的所有行
有点神秘。我有一个包含 58936 行的 .tsv 文件。我使用以下命令将文件加载到 R 中:
但 nrow(dat) 只显示了这一点:
因此,我使用 sed -n 命令将其停止位置周围的行(之前,包括该行和之后)写入一个新文件,并且能够将该文件加载到 R 中,所以我认为没有任何损坏文件。
是环境问题吗?
这是我的 sessionInfo()
我是不是内存不够了?这就是它没有完成加载的原因吗?
r - 文件错误(文件,“rt”):无法打开连接 - 无法打开文件“specdata”访问被拒绝
我在 Windows 7 上运行 rStudio v3.1.2。这台笔记本电脑是 64 位机器。
我正在参加 Coursera 提供的 JHU R 编程课程,但我遇到了问题的第 1 部分中收到的错误。我有一些错误处理功能,我没有在这个例子中使用,所以我真的只是想展示我绝对需要的东西。我包含这些消息的唯一原因是证明必须满足所有条件才能继续。
请注意,在 WR-eSUB 内有一个名为 specdata 的文件夹,在该文件夹内有一个包含 .csv 文件的目录,也称为 specdata。我可以改变这一点,但到目前为止,我一直在使用它,并且没有遇到任何问题。
当我打电话时,pollutantmean("specdata", "nitrate", 1:2)
我收到以下错误消息:
现在,在我无数次尝试完成这部分作业的过程中,我已经能够使用 lapply 等其他方式提取数据,但因为我一直卡住,所以我把所有东西都扔掉了,想以这种方式尝试。
我已经在网上搜索以尝试找到此解决方案。尽管有几个已回答的查询,但似乎没有一个像这个一样令人困惑。WR-eSUB 是一个管理文件夹,但之前在其中打开文件的尝试没有产生此错误。