0

我是 stackoverflow 的新成员,我开始在 R 中工作,所以我需要一些帮助!

我有一个包含 740 行和 500 000 列的文件,由制表符分隔,格式为 .txt 。文件大小约为 1.2GB。该文件包含有关牛基因型的信息。我需要将此文件读入 R 程序以使用表型数据执行关联研究分析。我无法在 R 中导入这个大文件。有人知道执行此操作的命令吗?只是一个用于导入此文件并在 R 中读取它的命令?

我的系统:i5 和 6Gb RAM 内存。

4

3 回答 3

3

read.table() 是你需要的。你的文件有标题吗?

在 Linux 上(文件中没有标题): mydata = read.table("/home/username/genotype.txt", header=FALSE)

在 Linux 上(文件中包含标头): mydata = read.table("/home/username/genotype.txt", header=TRUE)

在 Windows 上(文件中没有标题): mydata = read.table("c:\\mydata\\genotype.txt", header=FALSE)

在 Windows 上(文件中有标题): mydata = read.table("c:\\mydata\\genotype.txt", header=TRUE)

read.table()默认情况下使用制表符作为分隔符,但您可以指定参数 sep=","(或 sep="|" 等)来指定不同的分隔符。

于 2012-12-07T20:24:10.053 回答
1

在 R 中,您可以键入?read.csv?read.table这将为您提供这些功能的帮助文件。

然后,您可以将此函数的输出分配给一个变量,该变量将是您的数据框。

例如:

  myDataFrame <- read.csv("path/to/file.txt", sep="\t")
于 2012-12-07T20:04:41.680 回答
1

其他答案解决了将数据读入 R 的一般问题,但您的数据属于特定类型;CRANBioconductor以及野外都有一些出色的“特定领域”软件包。这些包将有自己的输入这些数据的方式,可能是从您当前的表示形式转换而来的,但可能会在有效处理和执行常见操作方面具有显着优势。更好地追求这些,同时学习如何使用 R 的一般特性。

于 2012-12-07T21:12:07.343 回答