我从ground truth创建了R&R的训练数据,注意到ground truth的每个问题都记录了10条训练数据,而不依赖于ground truth的候选答案的数量。
只有ground truth的问题数量会影响R&R训练数据的大小?我想知道它,因为训练数据有大小限制。
我从ground truth创建了R&R的训练数据,注意到ground truth的每个问题都记录了10条训练数据,而不依赖于ground truth的候选答案的数量。
只有ground truth的问题数量会影响R&R训练数据的大小?我想知道它,因为训练数据有大小限制。
注意到每个问题的ground truth都做了10条训练数据记录,而不依赖于ground truth的候选答案的数量
如果您使用 python train.py实用程序为 R&R 准备训练数据,则每个问题的候选答案数量由可选的-r
( --rows
) 参数控制,该参数指定查询返回的答案结果的数量。默认值为 10,这就是您所看到的。
同样,如果您直接使用/fcselect
API 调用来生成训练数据,那么您可以类似地使用可选rows
参数来指定为其生成特征的候选答案的数量。同样,默认值为 10。
如果您负担得起,通常最好覆盖此默认值并尝试使用更高的值,因为这为排名者提供了更多学习和重新排名答案的空间。RnR Web 工具使用默认值 30。
只有ground truth的问题数量会影响R&R训练数据的大小?
不,训练数据的大小与所有方面成正比:(1)查询的数量,(2)每个查询的候选答案数量,以及(3)特征(列)的数量。特征的数量本身与模式中标记为特征生成的字段数成正比(即在默认模式中,它们被标记为 type watson_text_en
)。