我有一个制表符分隔的数据文件,其中有四列我想读取 R 中的前两列,并且只将唯一的 2 列对保留为data.frame
. 该文件可以在数百万行中:
cluster-1 3 12412341324 13412341234
cluster-1 3 62626662346 54234524354
cluster-1 3 45454345354 45454544545
cluster-2 644 12332234341 37535473475
cluster-2 644 54654365466 56565634543
cluster-2 644 56356356536 35634563456
...
cluster-9999999 123 123412341241 143132423
...
我想使用scan
(或任何更好的选择)来读取文件并最终得到一个data.frame
:
cluster-1 3
cluster-2 644
cluster-3 343
...
cluster-9999999 123
在 R 中读取这些大文件最省时的方法是什么?