我正在编写 csv 文件来训练Watson Retrieve and Rank服务中的排名器,其中包含许多行 [query,"id_doc","relevance_score",...]。
关于这个文件的结构,我有两个问题:
- 我必须区分两个文档,具体取决于查询是否包含“不”一词。更详细:
- 第一个文档的正文和标题包含“经理”
- 第二份文件的正文和标题包含“非经理”
因此,如果查询类似于“我是经理。我该如何......?” 那么第一个文件是正确的,但不是第二个。如果查询类似于“我不是经理……”,那么第二个文档是正确的,但不是第一个。
是否有任何特定的语法可用于以正确的方式编写查询?也许使用布尔运算符?这个文件是应用这种过滤器的正确位置吗?
2. 该服务还有一个用于训练排名者的网络界面。本网站使用的评分是:1-> 错误答案,2-> 与主题相关但未回答问题,3-> 好,但可以改进,4-> 完美答案。
此文件中使用的相关性分数是否与 Web 界面相同?
谢谢!