1

我正在评估一种算法,并想使用人工数据。

该算法适用于一维人工数据集,如StackOverflow answer所示。

我想测试具有多个维度和某些特征(例如噪声、相关性)的数据集的算法。有人已经在 R 中实现了“人工数据集生成器”吗?

任何反馈将不胜感激。谢谢!

4

2 回答 2

2

您可以使用wakefield包生成随机数据集。

它允许轻松创建数据帧、时间序列、调整相关性,甚至可视化生成的数据,例如:

if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")
pacman::p_load(dplyr, tidyr, ggplot2)

set.seed(10)

r_data_frame(n=100,
    id,
    dob,
    animal,
    grade, grade,
    death,
    dummy,
    grade_letter,
    gender,
    paragraph,
    sentence
) %>%
   r_na() %>%
   plot(palette = "Set1")

在此处输入图像描述

于 2016-12-31T15:00:20.743 回答
1

R 中的mlbench 是一组函数,用于生成不同维度和结构的数据以用于基准测试。它包括回归和分类数据集。

当然,这些数据集都是相当人为的,因此它们可能无法真正反映“现实生活”的性能,因为它们可能无法反映您的算法所针对的那种结构。但至少这是一个开始的地方。

于 2012-01-23T16:33:49.497 回答