我很难在脑海中区分这两个概念。
我知道诸如BLEU之类的评估指标可用于根据参考来衡量给定输入的质量(如在机器翻译中)。但是这个分数可以用来将句子分为两类吗?例如,某个评估指标得分高于 0.50 的句子将被给予“是”,而低于 0.50 的所有内容将被给予“否”。
此外,这可能与机器学习算法中使用的特征有关吗?例如,说短语“过去”是数据的一个可能特征,然后可用于将输入分类为具有或不具有此特征。
我很难在脑海中区分这两个概念。
我知道诸如BLEU之类的评估指标可用于根据参考来衡量给定输入的质量(如在机器翻译中)。但是这个分数可以用来将句子分为两类吗?例如,某个评估指标得分高于 0.50 的句子将被给予“是”,而低于 0.50 的所有内容将被给予“否”。
此外,这可能与机器学习算法中使用的特征有关吗?例如,说短语“过去”是数据的一个可能特征,然后可用于将输入分类为具有或不具有此特征。
似乎您完全错过了这里基本概念的含义。
f
,它应用于您的输入对象x
返回一些值,例如 - 数字,或某些现象的 0/1(不存在/存在)表示。例如,这样的特征可能是(对于文本文档)“给定文本是否包含子字符串“过去”,等等f("I like trains")=false (0)
,并且f("I liked trains in the past")=1 (true)
. 您不需要训练分类器来检测特征,而是使用一些简单(有效)的算法来提取它们来表示您的数据,然后将其用于将它们分类到某些类中。一旦有了f
,“将输入分类为具有此功能”就没有意义了,因为正是f
这样做的。当然,当某些数据点不可用时,可以实际训练分类器以“填充”缺失的特征,但这是一个更高级的主题,它似乎不是您问题的一部分。我建议您观看 Andrew Ng 的一些很棒的机器学习介绍视频,可在 coursera 平台上获得:https ://class.coursera.org/ml/lecture/preview