我有一个包含 10 列和大约 700K 行的 data.frame。
我想使用pairs(data.frame) 函数来显示列值的成对散点图。没有必要(或不可行)在每个图中绘制所有 700K 行,因此我想选择要绘制的 2 或 3K(一些少量)行的随机子集。
有人可以帮助我选择我的数据框的一个小的随机子集。我认为要么
- 数据帧 X% 的随机子集或
- 每第 N 行都会起作用。
我知道我已经看到了这一点,但找不到代码片段....
谢谢
我有一个包含 10 列和大约 700K 行的 data.frame。
我想使用pairs(data.frame) 函数来显示列值的成对散点图。没有必要(或不可行)在每个图中绘制所有 700K 行,因此我想选择要绘制的 2 或 3K(一些少量)行的随机子集。
有人可以帮助我选择我的数据框的一个小的随机子集。我认为要么
我知道我已经看到了这一点,但找不到代码片段....
谢谢
重要的问题是:你的行的一个随机子集会准确地描述整个数据集吗?
在我们了解您的数据所代表的内容(时间序列与随机采样或其他内容)之前,很难就要绘制的正确子集提供适当的建议。
你会更好吗,例如,splinefun
为每列创建一个函数,并以从最小值到最大值的均匀间距生成拟合数据图?
像这样的东西会起作用吗?
a <- sample(1:700000,10) # option 1
a <- seq(1, 700000, by = 200) # option 2
然后可以得到子集 -
randomssubset <- df[a,]