我正在做这个项目,其中我们有一些类别,例如
美容活动购物
类别被标记,例如一些标记是:
Beauty => Haircut, spa, manicure, personal trainer
Activities => personal trainer, biking
Shopping => Jewelery, Shirts, Socks
标签有一个顺序,表示它们与类别的相关性,例如理发在美容中排在首位,因为其中包含理发一词的文本最有可能与美容相关,
如您所见,“私人教练”标签属于多个类别,因此如果文本中包含私人教练,则它可能与美容或活动有关。
我还记录了每个标签在文本中被找到的次数,因此每个标签中都有一个找到的值。
现在,当要处理新文本时,我会搜索其中的所有标签,并查看它们在给定文本中出现了多少次。示例文本的结果将如下所示:
Haircut => 4
personal trainer => 1
manicure => 1
spa => 0
看到这里,我们意识到文本应该属于美。
现在这是我的问题: 1- 我们如何通过给定的输入以及与类别相关联的标签数组以编程方式确定该文本属于哪个类别?这是一个好主意吗?有没有更优雅的方式来做到这一点?
2-这是这样做的好方法还是有更好的算法?我在想,在处理这个问题时,可能会出现类似 lucene 或更智能的算法。