我正在尝试为项目生成数据。数据需要从预定义的列表中随机生成。本质上,我有真实的数据,但它非常小。为了构建一些分类器(决策树、支持向量机和朴素贝叶斯),我想产生 100,000 个观察值。
我是编码新手(我可以在 Matlab 和 R 中做一些基本的事情)并且最初尝试在 Excel 中执行此操作,但是,RANDOMA 函数生成了非常均匀分布的数据。更具体地说,我使用 5 个人口统计信息来预测客户将选择哪个零售商,例如零售商 A、B 或 C。人口统计信息列表如下:
1) 年龄组(18-24、25-34、35-44、45-54、55+) 2) 性别(男性或女性) 3) 收入组(<£10k、£10k-19.99k、£20k- £29.99k 等)4)地区(伦敦、威尔士、苏格兰、北爱尔兰、西南等)5)工作类型(全职、兼职、学生等)
当我尝试随机创建 100,000 个观察值(每个观察值从 5 个列表中的每一个中随机选择 1 个)时,它们几乎均匀分布在它们之间。更糟糕的是,我随机分配给零售商(A、B 或 C)的值也是相等的。
想法是将这些随机生成的数据拆分为训练和测试数据,这样我就可以构建一些模型并测试它们的适用性。