我是机器学习的新手,我有这个基本问题。由于我在算法的数学部分较弱,我发现很难理解这一点。
当您被赋予使用无监督学习(无训练样本)设计分类器(保持简单 - 2 类分类器)的任务时,如何决定使用哪种类型的分类器(线性或非线性)?如果我们不知道这一点,那么特征选择的重要性(这意味着间接地知道数据集是什么)变得非常关键。我是在朝着正确的方向思考还是有什么我不知道的大事。非常感谢您对该主题的深入了解。
我是机器学习的新手,我有这个基本问题。由于我在算法的数学部分较弱,我发现很难理解这一点。
当您被赋予使用无监督学习(无训练样本)设计分类器(保持简单 - 2 类分类器)的任务时,如何决定使用哪种类型的分类器(线性或非线性)?如果我们不知道这一点,那么特征选择的重要性(这意味着间接地知道数据集是什么)变得非常关键。我是在朝着正确的方向思考还是有什么我不知道的大事。非常感谢您对该主题的深入了解。
根据定义,分类是一个“监督学习”问题。此类模型需要给定类中的点示例,以了解如何将类彼此分开。如果您只是在寻找未标记数据点之间的关系,那么您正在解决一个无监督问题。研究聚类算法。k-means是很多人开始的地方。
希望这可以帮助!
这是一个巨大的问题。是的,术语“聚类”是谷歌搜索的最佳切入点,但我知道您想要训练分类器,其中“训练”意味着使用参数优化目标函数。首选绝对不是判别分类器(例如线性分类器),因为使用它们,标准最大似然 (ML) 目标在没有标签的情况下无法工作。如果您绝对想使用线性分类器,那么您必须调整 ML 目标,或者更好地使用另一个目标(近似分类器风险)。但更简单的选择是查看生成模型,例如 HMM、朴素贝叶斯、潜在狄利克雷分配……ML 目标在没有标签的情况下工作。