我有几个功能可以投票决定某个数据项是否值得向我的用户展示。您可以将它们中的每一个视为 0 到 1 之间的数字,其中 1 表示它很好,0 表示不值得向我的用户展示。我刚刚做了一件非常标准的事情,即为每个属性选择一个权重并执行一个加权求和来确定一个单一的指标来做出决定(很像一个单一的感知单元)。
但是,有时不同的属性会相互压倒并产生不好的结果。我认为基本问题是真正的最优函数是相当非线性的,当然,这些加权和给出的唯一规则根据定义是线性的。为了解决这个问题,在加权和中被“压倒”的特征之一上,我用它来乘以整个单个指标。这使得这个重要的特性可以充当“看门人”——如果这个特性太低,它就可以阻止数据流出。
为了通过执行标准加权和来达到类似的效果,我必须使该特征的权重如此之高,以至于其他特征基本上没有发言权......基本上它回到了最佳规则的非线性,因为这个功能在某些范围内可能非常重要,但在其他范围内则不然。
我想知道关于使用一个特征来乘以这样的整个结果的知识是什么?加权和是最常用的东西(除了简单性)是否有特定的原因?
PS。一旦我有更多的数据,我可能会使用标准的机器学习技术来实际学习规则,但现在我正在对样本数据集进行手动训练。我现在要追求简单,同时仍在努力使其正常工作。