2

我有几个功能可以投票决定某个数据项是否值得向我的用户展示。您可以将它们中的每一个视为 0 到 1 之间的数字,其中 1 表示它很好,0 表示不值得向我的用户展示。我刚刚做了一件非常标准的事情,即为每个属性选择一个权重并执行一个加权求和来确定一个单一的指标来做出决定(很像一个单一的感知单元)。

但是,有时不同的属性会相互压倒并产生不好的结果。我认为基本问题是真正的最优函数是相当非线性的,当然,这些加权和给出的唯一规则根据定义是线性的。为了解决这个问题,在加权和中被“压倒”的特征之一上,我用它来乘以整个单个指标。这使得这个重要的特性可以充当“看门人”——如果这个特性太低,它就可以阻止数据流出。

为了通过执行标准加权和来达到类似的效果,我必须使该特征的权重如此之高,以至于其他特征基本上没有发言权......基本上它回到了最佳规则的非线性,因为这个功能在某些范围内可能非常重要,但在其他范围内则不然。

我想知道关于使用一个特征来乘以这样的整个结果的知识是什么?加权和是最常用的东西(除了简单性)是否有特定的原因?

PS。一旦我有更多的数据,我可能会使用标准的机器学习技术来实际学习规则,但现在我正在对样本数据集进行手动训练。我现在要追求简单,同时仍在努力使其正常工作。

4

1 回答 1

2

你的问题真的很好。

你提到的是一个重要的问题。从理论和实践的角度来看都很重要:我应该如何使用我的功能来获得最佳结果?

让我举个例子,因为词性标注文档的来源是没有用的,因为无论文章来自(文章来源)华尔街日报还是来自连线,大多数词的使用方式都是相同的。因此,像文章来源这样的功能对于使用你的术语来说是“过度强大的”。但有时你会得到一个像“监视器”这样的词,如果你知道它出现在哪里,你几乎就知道如何标记它(如果它来自 WSJ:动词,如果它来自连线:名词)。

乍一看,文档来源特征并不是一个有用的特征,但它是我们试图标记的单词的一个有用的元特征。在领域适应的行话中,它表征了领域。

对于此类问题,您要查看的一些关键字是:

另一个有用的信息是线性分类器在捕捉这些交互方面特别糟糕,你甚至将其描述为非线性。如果可能的话,您至少应该使用二次或 RBF 或更复杂的东西,至少有希望捕获它。

于 2012-08-19T10:14:27.087 回答