所以我有这个由 19,150,868 行组成的 tsv 数据集;我确定这个数字是正确的,因为 A)它是由文件的所有者指定的,B)我wc -l
在 UNIX 中检查过。
然而,当我跑的时候:
MyData = read.table("dataset.tsv", header=FALSE, sep="\t",
col.names = c_names, colClass = "character", comment.char = "",
quote="", nrows = 19150868)
只有第一个 835873 被导入。没有报错,整个过程只需要 20.33 秒。