0

我对 NLC 的工作方式感到困惑。我的期望是,当它被要求对不应该有任何关系或训练数据来学习的文本进行分类时,应该不会返回任何结果或置信度分数非常低的结果。

我已经用一组训练数据训练了一个模型,当我尝试对训练数据之外的文本进行分类时,我得到的结果具有高置信度值(~60%)。

这是我的训练数据的示例:

foo,1,2,3,4
bar,1,2,3,4
baz,1,2,3,4

当我尝试对文本“这不应该存在”进行分类时,我高度相信该文本是“1”。

我的假设是否正确,因为在这种情况下我应该返回值?我是否在训练数据以错误地对 foo、bar 和 baz 进行分类?如果不是,我应该从 NLC 服务中得到什么?

4

1 回答 1

0

想象一下,你有 3 个桶,你必须在其中一个桶里扔一枚硬币。每个桶有 33.3% 的变化来获得硬币。自然语言分类器服务也是如此。它被训练来将输入文本分类为预定义的类。

如果您创建具有 3 个类的分类器并尝试对不在训练数据中的文本进行分类,NLC 仍会将您的句子分类到您定义的三个类之一。如果您的输出为 60%,那么其他两个桶将获得剩余的 40%。

有时你可以获得高分,当你的课程非常不同时,这很正常。

于 2017-04-30T20:02:47.723 回答