2

我们的网站有用户生成的内容,用户可以使用标签对其内容进行分类。为了使搜索内容更容易,我们正在考虑创建“兴趣”类别,例如:

Sex, Hobbies, Current Events, etc.  

实现此目的的一种方法是将关键字与每个兴趣类别相关联。因此,如果用户点击爱好,系统将搜索我们与爱好相关联的关键字,例如:

Hobbies -> cars, cooking, reading, etc.  

然而,这种方法似乎受到限制,因为用户可以在身体上发布带有“性感”字样的热棒图片,而在我们的系统中,“性感”一词与两个兴趣类别相关联:“性”和“时尚与美容” .

关于如何使这种方法更智能的任何建议?或者,关于公司如何实施这样的事情的建议/建议?

4

1 回答 1

2

可能您应该对类别进行加权。查找所有匹配的单词,并为所有类别分配一个值,如下所示:

  • 为每个无疑属于该类别的单词添加 3
  • 为可能属于更多类别的每个单词加 1

这是一种有偏的权重(偏向独特的词),这样您可以更好地确定图片所属的位置。

此外,您可以构建一个 -不断变化的- 权重矩阵,即哪个词与某个类别的相关程度。常用词的重要性较低(因为每个人都在使用它们)。

此外,根据分类的文本,您可以自动扩展单词列表,并自动对它们进行分类。例如,如果一个新的游戏名称出现在单词列表中(称为“abc”),您会注意到“abc”出现在爱好类别中的许多文本中,而其他任何地方都没有。所以,你可以把这个词和这个类别联系起来。

构建自动学习系统是一个非常令人兴奋的领域!

于 2013-01-29T21:10:53.873 回答