1

我有一个包含 10 列和大约 700K 行的 data.frame。
我想使用pairs(data.frame) 函数来显示列值的成对散点图。没有必要(或不可行)在每个图中绘制所有 700K 行,因此我想选择要绘制的 2 或 3K(​​一些少量)行的随机子集。

有人可以帮助我选择我的数据框的一个小的随机子集。我认为要么

  1. 数据帧 X% 的随机子集或
  2. 每第 N 行都会起作用。

    我知道我已经看到了这一点,但找不到代码片段....

谢谢

4

2 回答 2

3

重要的问题是:你的行的一个随机子集会准确地描述整个数据集吗?
在我们了解您的数据所代表的内容(时间序列与随机采样或其他内容)之前,很难就要绘制的正确子集提供适当的建议。

你会更好吗,例如,splinefun为每列创建一个函数,并以从最小值到最大值的均匀间距生成拟合数据图?

于 2013-11-08T15:33:49.170 回答
1

像这样的东西会起作用吗?

a <- sample(1:700000,10) # option 1
a <- seq(1, 700000, by = 200) # option 2

然后可以得到子集 -

randomssubset <- df[a,]
于 2013-11-08T14:50:15.973 回答