3

在正常的机器学习问题中,您会获得许多特征(例如:-如果您正在制作图像识别器),因此当有很多特征时,您无法可视化数据(您无法绘制图形)。在不绘制图表的情况下,有没有办法确定我们应该对那个问题使用多大程度的假设函数?如何确定要使用的最佳假设函数?例如:-

如果有 2 个输入 x(1),x(2)。

是否选择 (w0) + x(1)*w(1) + x(2)*w(2) 作为假设函数或

w(0) + x(1)*w(1) + x(2)*w(2) + x(1)*x(2)*w(3) + (x(1)^2)*w (4) + (x(2)^2)*w(5)

作为假设函数:其中 w(0),w(1),w(2),w(3)...... 是权重。

4

1 回答 1

7

应用的第一个主要步骤是特征选择或特征提取(降维)。这是一个预处理步骤,您可以使用某些相关性指标(如相关性、互信息作为 mRmR)来应用它。此外,还有其他方法受数值线性代数和统计领域的启发,例如主成分分析,用于根据一些假设来寻找描述空间的特征。

您的问题与机器学习领域的一个主要问题有关,即模型选择。知道使用哪个度数的唯一方法是试验不同度数的模型(d=1,d=2,...),记住以下几点:

1-过度拟合:您需要通过确保限制变量的范围(在您的情况下为 Ws)来避免过度拟合。这种解决方案称为正则化。此外,尽量不要像 ANN 那样长时间训练分类器。

2- Prapring训练、验证和测试集。训练用于训练模型,验证用于调整参数,测试用于比较不同的模型。

3-正确选择绩效评估指标。如果您的训练数据不均衡(即为目标变量的每个值或类别标签分配了几乎相同数量的样本),则准确性不具有指示性。在这种情况下,您可能需要考虑敏感性、特异性或 Mathew 相关性。

实验是关键,而且你确实受到资源的限制。然而,适当的实验设计可以达到您的目的。

于 2012-10-11T16:09:11.457 回答