r - 基因型数据 - 如何使用 R 导入

Question

我是 stackoverflow 的新成员，我开始在 R 中工作，所以我需要一些帮助！

我有一个包含 740 行和 500 000 列的文件，由制表符分隔，格式为 .txt 。文件大小约为 1.2GB。该文件包含有关牛基因型的信息。我需要将此文件读入 R 程序以使用表型数据执行关联研究分析。我无法在 R 中导入这个大文件。有人知道执行此操作的命令吗？只是一个用于导入此文件并在 R 中读取它的命令？

我的系统：i5 和 6Gb RAM 内存。

score 3 · Accepted Answer

read.table() 是你需要的。你的文件有标题吗？

在 Linux 上（文件中没有标题）： mydata = read.table("/home/username/genotype.txt", header=FALSE)

在 Linux 上（文件中包含标头）： mydata = read.table("/home/username/genotype.txt", header=TRUE)

在 Windows 上（文件中没有标题）： mydata = read.table("c:\\mydata\\genotype.txt", header=FALSE)

在 Windows 上（文件中有标题）： mydata = read.table("c:\\mydata\\genotype.txt", header=TRUE)

read.table()默认情况下使用制表符作为分隔符，但您可以指定参数 sep=","（或 sep="|" 等）来指定不同的分隔符。

score 1 · Accepted Answer

在 R 中，您可以键入?read.csv，?read.table这将为您提供这些功能的帮助文件。

然后，您可以将此函数的输出分配给一个变量，该变量将是您的数据框。

例如：

  myDataFrame <- read.csv("path/to/file.txt", sep="\t")

score 1 · Accepted Answer

其他答案解决了将数据读入 R 的一般问题，但您的数据属于特定类型；CRAN和Bioconductor以及野外都有一些出色的“特定领域”软件包。这些包将有自己的输入这些数据的方式，可能是从您当前的表示形式转换而来的，但可能会在有效处理和执行常见操作方面具有显着优势。更好地追求这些，同时学习如何使用 R 的一般特性。

r - 基因型数据 - 如何使用 R 导入

3 回答 3

Related

Reference