1

我想知道查询级功能(例如查询中的术语计数)如何有用?因为,在生成模型文件时会忽略查询级特征。

培训档案;

3 qid:1 1:2 2:1 3:0 4:0.2 5:0
2 qid:1 1:2 2:0 3:1 4:0.1 5:1
1 qid:1 1:2 2:1 3:0 4:0.4 5:0
1 qid:1 1:2 2:0 3:1 4:0.3 5:0 
1 qid:2 1:3 2:0 3:1 4:0.2 5:0 
2 qid:2 1:3 2:0 3:1 4:0.4 5:0
1 qid:2 1:3 2:0 3:1 4:0.1 5:0 
1 qid:2 1:3 2:0 3:1 4:0.2 5:0

在这个文件中,第一个特征是查询级别的特征,它在相同的查询中是相同的——不同的项目对。

它已经通过 SVM-rank 训练。然后,生成的模型文件忽略第一个特征,并从第二个特征开始。

生成的模型文件;

1 2:0.50956941 3:-0.50956941 4:0.1913875 5:1.0382775 #
4

1 回答 1

1

查询级别的功能在不同的排名范式中可能会有所帮助,但Joachims 指出

请注意,排名仅在具有相同 qid 的示例之间具有可比性。另请注意,目标值(数据文件每行中的第一个值)仅用于定义示例的顺序。它的绝对值无关紧要,只要相对于具有相同 qid 的其他示例的排序保持不变。

这意味着模型永远不会使用每个查询中不变的特征。为了使这样的功能有用,您的模型必须在qids 之间进行某种比较。

于 2015-11-04T14:31:15.017 回答