1

IBM Watson 自然语言分类器 (NLC) 将训练集中的文本值限制为 1024 个字符: https ://console.bluemix.net/docs/services/natural-language-classifier/using-your-data.html#training-限制

然而,经过训练的模型可以对长度最多为 2048 个字符的每个文本进行分类: https ://console.bluemix.net/apidocs/natural-language-classifier#classify-a-phrase 。

这种差异给我带来了一些困惑:我一直都知道我们应该在训练阶段和生产阶段应用相同的预处理,因此如果我不得不将训练数据限制在 1024 个字符,我也会在生产中做同样的事情.

我的推理是否正确?我应该将生产中的文本限制在 1024 个字符(我认为我应该)还是 2048 个字符(可能是因为 1024 个字符太少)?

先感谢您!

4

1 回答 1

0

最近,我有同样的问题,一篇文章中的一个答案澄清了同样的问题

目前,训练的限制设置为 1024,测试/分类的限制设置为 2048。1024 限制可能需要在训练之前对训练数据进行一些管理。大多数对其数据需要更大字符限制的组织最终会将输入文本分块为 1024 个块。此外,在数据类似于 Airbnb 评论的用例中,主要类别通常可以在前 2048 个字符内进行评估,因为冗长的评论中通常存在很多噪音。

这是文章的链接

于 2018-11-27T08:20:41.487 回答