watson - 只有ground truth的问题数量会影响R&R训练数据的大小？

Question

我从ground truth创建了R&R的训练数据，注意到ground truth的每个问题都记录了10条训练数据，而不依赖于ground truth的候选答案的数量。

只有ground truth的问题数量会影响R&R训练数据的大小？我想知道它，因为训练数据有大小限制。

score 0 · Accepted Answer

注意到每个问题的ground truth都做了10条训练数据记录，而不依赖于ground truth的候选答案的数量

如果您使用 python train.py实用程序为 R&R 准备训练数据，则每个问题的候选答案数量由可选的-r( --rows) 参数控制，该参数指定查询返回的答案结果的数量。默认值为 10，这就是您所看到的。

同样，如果您直接使用/fcselectAPI 调用来生成训练数据，那么您可以类似地使用可选rows参数来指定为其生成特征的候选答案的数量。同样，默认值为 10。

如果您负担得起，通常最好覆盖此默认值并尝试使用更高的值，因为这为排名者提供了更多学习和重新排名答案的空间。RnR Web 工具使用默认值 30。

只有ground truth的问题数量会影响R&R训练数据的大小？

不，训练数据的大小与所有方面成正比：（1）查询的数量，（2）每个查询的候选答案数量，以及（3）特征（列）的数量。特征的数量本身与模式中标记为特征生成的字段数成正比（即在默认模式中，它们被标记为 type watson_text_en）。

1 回答 1