0

我从ground truth创建了R&R的训练数据,注意到ground truth的每个问题都记录了10条训练数据,而不依赖于ground truth的候选答案的数量。

只有ground truth的问题数量会影响R&R训练数据的大小?我想知道它,因为训练数据有大小限制。

4

1 回答 1

0

注意到每个问题的ground truth都做了10条训练数据记录,而不依赖于ground truth的候选答案的数量

如果您使用 python train.py实用程序为 R&R 准备训练数据,则每个问题的候选答案数量由可选的-r( --rows) 参数控制,该参数指定查询返回的答案结果的数量。默认值为 10,这就是您所看到的。

同样,如果您直接使用/fcselectAPI 调用来生成训练数据,那么您可以类似地使用可选rows参数来指定为其生成特征的候选答案的数量。同样,默认值为 10。

如果您负担得起,通常最好覆盖此默认值并尝试使用更高的值,因为这为排名者提供了更多学习和重新排名答案的空间。RnR Web 工具使用默认值 30。

只有ground truth的问题数量会影响R&R训练数据的大小?

不,训练数据的大小与所有方面成正比:(1)查询的数量,(2)每个查询的候选答案数量,以及(3)特征(列)的数量。特征的数量本身与模式中标记为特征生成的字段数成正比(即在默认模式中,它们被标记为 type watson_text_en)。

于 2017-04-20T15:10:57.497 回答