ibm-cloud - watson 特殊字符、重复帖子和 url 处理

Question

在使用 watson 个性洞察 API 时，我已经注意到一些奇怪的趋势，包括许多在各个维度上的平均值得分（例如，与许多人在 0.27 左右的一致性），这让我觉得它归咎于某些东西。

经过审查，我注意到一个语言错位问题（即，如果它认为它是英语，如果它是西班牙语，你可能会得到奇怪的结果），这导致我问，但没有找到答案：

watson 如何处理：1) 消息中的 url（例如，许多 Twitter 帖子都有 url） 2) 重复帖子（许多频道多次重复帖子内容） 3) 特殊字符（许多帖子有大量随机特殊字符）

我的目标是确定我需要做多少预处理才能使 watson 最有效。

score 3 · Accepted Answer

你是对的，如果语言没有对齐，那么你会得到不正确的结果。

Pi API 首先从内容语言标头确定语言。如果缺少，那么如果内容类型是 json，那么它会查看 json 内容中的语言，选择出现次数最多的语言，最后，如果缺少，它将默认为默认语言，即英语。

所以简而言之，建议（将在未来的更新中成为必需）是始终发送内容语言标头。

其次，关于内容的问题： - URL：服务将尝试删除这些。我不能保证它会删除所有可能的选项，因为 url 规范有一些非常深奥的选项，但我们会删除常见的格式。- 重复帖子：如果您在同一个帖子中发送两次，那么它将被计算两次。我们不对发送到服务的文本进行重复数据删除。- 特殊字符; 我假设您在这里指的是表情符号。这些都包含在我们的处理中，因为基础模型也是根据包含它们的数据进行训练的，因此它们是服务使用的众多信号之一。

ibm-cloud - watson 特殊字符、重复帖子和 url 处理

1 回答 1

Related

Reference