我想创建一个包含 2 个类和 3 个特征的合成数据集,用于测试具有 RBF 内核的 SVM 分类器的超参数优化技术。超参数是 gamma 和 C(成本)。
我创建了我当前的 3D 合成数据集,如下所示:
我通过分别具有均值 (1,0,0) 和 (0,1,0) 以及单位方差的多元正态分布进行采样,为每个类创建了 10 个基于点。
我通过随机选择一个基点,然后从平均值等于所选基点和方差 I/5 的正态分布中采样一个新点,为每个类添加了更多点。
如果我可以从数据集中(在运行 SVM 之前)确定最佳 C 和 gamma,那将是一件非常酷的事情,这样我就可以查看我的优化技术是否最终为我提供了最佳参数。
是否有可能从上述合成数据集中计算出最佳的 gamma 和 C 参数?
或者有没有办法创建一个已知最佳 gamma 和 C 参数的合成数据集?