我正在评估一种算法,并想使用人工数据。
该算法适用于一维人工数据集,如StackOverflow answer所示。
我想测试具有多个维度和某些特征(例如噪声、相关性)的数据集的算法。有人已经在 R 中实现了“人工数据集生成器”吗?
任何反馈将不胜感激。谢谢!
我正在评估一种算法,并想使用人工数据。
该算法适用于一维人工数据集,如StackOverflow answer所示。
我想测试具有多个维度和某些特征(例如噪声、相关性)的数据集的算法。有人已经在 R 中实现了“人工数据集生成器”吗?
任何反馈将不胜感激。谢谢!
您可以使用wakefield包生成随机数据集。
它允许轻松创建数据帧、时间序列、调整相关性,甚至可视化生成的数据,例如:
if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh("trinker/wakefield")
pacman::p_load(dplyr, tidyr, ggplot2)
set.seed(10)
r_data_frame(n=100,
id,
dob,
animal,
grade, grade,
death,
dummy,
grade_letter,
gender,
paragraph,
sentence
) %>%
r_na() %>%
plot(palette = "Set1")
R 中的mlbench 包是一组函数,用于生成不同维度和结构的数据以用于基准测试。它包括回归和分类数据集。
当然,这些数据集都是相当人为的,因此它们可能无法真正反映“现实生活”的性能,因为它们可能无法反映您的算法所针对的那种结构。但至少这是一个开始的地方。