2

在使用 watson 个性洞察 API 时,我已经注意到一些奇怪的趋势,包括许多在各个维度上的平均值得分(例如,与许多人在 0.27 左右的一致性),这让我觉得它归咎于某些东西。

经过审查,我注意到一个语言错位问题(即,如果它认为它是英语,如果它是西班牙语,你可能会得到奇怪的结果),这导致我问,但没有找到答案:

watson 如何处理:1) 消息中的 url(例如,许多 Twitter 帖子都有 url) 2) 重复帖子(许多频道多次重复帖子内容) 3) 特殊字符(许多帖子有大量随机特殊字符)

我的目标是确定我需要做多少预处理才能使 watson 最有效。

4

1 回答 1

3

你是对的,如果语言没有对齐,那么你会得到不正确的结果。

Pi API 首先从内容语言标头确定语言。如果缺少,那么如果内容类型是 json,那么它会查看 json 内容中的语言,选择出现次数最多的语言,最后,如果缺少,它将默认为默认语言,即英语。

所以简而言之,建议(将在未来的更新中成为必需)是始终发送内容语言标头。

其次,关于内容的问题: - URL:服务将尝试删除这些。我不能保证它会删除所有可能的选项,因为 url 规范有一些非常深奥的选项,但我们会删除常见的格式。- 重复帖子:如果您在同一个帖子中发送两次,那么它将被计算两次。我们不对发送到服务的文本进行重复数据删除。- 特殊字符; 我假设您在这里指的是表情符号。这些都包含在我们的处理中,因为基础模型也是根据包含它们的数据进行训练的,因此它们是服务使用的众多信号之一。

于 2017-03-29T23:57:00.087 回答