IBM Watson 自然语言分类器 (NLC) 将训练集中的文本值限制为 1024 个字符: https ://console.bluemix.net/docs/services/natural-language-classifier/using-your-data.html#training-限制。
然而,经过训练的模型可以对长度最多为 2048 个字符的每个文本进行分类: https ://console.bluemix.net/apidocs/natural-language-classifier#classify-a-phrase 。
这种差异给我带来了一些困惑:我一直都知道我们应该在训练阶段和生产阶段应用相同的预处理,因此如果我不得不将训练数据限制在 1024 个字符,我也会在生产中做同样的事情.
我的推理是否正确?我应该将生产中的文本限制在 1024 个字符(我认为我应该)还是 2048 个字符(可能是因为 1024 个字符太少)?
先感谢您!