在使用 watson 个性洞察 API 时,我已经注意到一些奇怪的趋势,包括许多在各个维度上的平均值得分(例如,与许多人在 0.27 左右的一致性),这让我觉得它归咎于某些东西。
经过审查,我注意到一个语言错位问题(即,如果它认为它是英语,如果它是西班牙语,你可能会得到奇怪的结果),这导致我问,但没有找到答案:
watson 如何处理:1) 消息中的 url(例如,许多 Twitter 帖子都有 url) 2) 重复帖子(许多频道多次重复帖子内容) 3) 特殊字符(许多帖子有大量随机特殊字符)
我的目标是确定我需要做多少预处理才能使 watson 最有效。