-1

我很难在脑海中区分这两个概念。

我知道诸如BLEU之类的评估指标可用于根据参考来衡量给定输入的质量(如在机器翻译中)。但是这个分数可以用来将句子分为两类吗?例如,某个评估指标得分高于 0.50 的句子将被给予“是”,而低于 0.50 的所有内容将被给予“否”。

此外,这可能与机器学习算法中使用的特征有关吗?例如,说短语“过去”是数据的一个可能特征,然后可用于将输入分类为具有或不具有此特征。

4

1 回答 1

1

似乎您完全错过了这里基本概念的含义。

  • 评估指标是一个给出的函数:一些模型/算法答案和一些黄金标准(由专家提供的真实答案)衡量您的模型/算法有多好。它与实际的分类过程没有任何关系(好吧,不是没有,因为它经常用于交叉验证和调整模型的参数)。它用于做出任何决定,它是一种量化结果有多好的方法。
  • 特征只是数据表示,所以从某种意义上说,它们是问题的一部分,并且特征的正确选择(也称为特征工程)对模型的质量有很大的影响。但是“数据的一个可能特征,然后可用于将输入分类为具有或不具有此特征”是相当没有意义的。特征是某个函数的值,通常称为特征检测器,我们称之为它f,它应用于您的输入对象x返回一些值,例如 - 数字,或某些现象的 0/1(不存在/存在)表示。例如,这样的特征可能是(对于文本文档)“给定文本是否包含子字符串“过去”,等等f("I like trains")=false (0),并且f("I liked trains in the past")=1 (true). 您不需要训练分类器来检测特征,而是使用一些简单(有效)的算法来提取它们来表示您的数据,然后将其用于将它们分类到某些类中。一旦有了f,“将输入分类为具有此功能”就没有意义了,因为正是f这样做的。当然,当某些数据点不可用时,可以实际训练分类器以“填充”缺失的特征,但这是一个更高级的主题,它似乎不是您问题的一部分。

我建议您观看 Andrew Ng 的一些很棒的机器学习介绍视频,可在 coursera 平台上获得:https ://class.coursera.org/ml/lecture/preview

于 2013-09-12T15:09:14.380 回答