我是 stackoverflow 的新成员,我开始在 R 中工作,所以我需要一些帮助!
我有一个包含 740 行和 500 000 列的文件,由制表符分隔,格式为 .txt 。文件大小约为 1.2GB。该文件包含有关牛基因型的信息。我需要将此文件读入 R 程序以使用表型数据执行关联研究分析。我无法在 R 中导入这个大文件。有人知道执行此操作的命令吗?只是一个用于导入此文件并在 R 中读取它的命令?
我的系统:i5 和 6Gb RAM 内存。
read.table() 是你需要的。你的文件有标题吗?
在 Linux 上(文件中没有标题):
mydata = read.table("/home/username/genotype.txt", header=FALSE)
在 Linux 上(文件中包含标头):
mydata = read.table("/home/username/genotype.txt", header=TRUE)
在 Windows 上(文件中没有标题):
mydata = read.table("c:\\mydata\\genotype.txt", header=FALSE)
在 Windows 上(文件中有标题):
mydata = read.table("c:\\mydata\\genotype.txt", header=TRUE)
read.table()
默认情况下使用制表符作为分隔符,但您可以指定参数 sep=","(或 sep="|" 等)来指定不同的分隔符。
在 R 中,您可以键入?read.csv
,?read.table
这将为您提供这些功能的帮助文件。
然后,您可以将此函数的输出分配给一个变量,该变量将是您的数据框。
例如:
myDataFrame <- read.csv("path/to/file.txt", sep="\t")
其他答案解决了将数据读入 R 的一般问题,但您的数据属于特定类型;CRAN和Bioconductor以及野外都有一些出色的“特定领域”软件包。这些包将有自己的输入这些数据的方式,可能是从您当前的表示形式转换而来的,但可能会在有效处理和执行常见操作方面具有显着优势。更好地追求这些,同时学习如何使用 R 的一般特性。