因此,我有一个数据集,其中包含一个描述列(IT 故障单描述)和一个目标列(故障单的分组,例如故障单属于组 0 或组 1 - 未提供组类型,例如访问问题)。
问题是:我有 45 个不同的目标变量 - 目标是第 0 组、第 1 组、......第 45 组。这些组中有一个相当长的尾巴,其中一些组的票数不到总票数的 0.1%。现在,不是直接将它们组合在一起形成一个组,而是想看看是否有任何方法可以根据 IT 故障单描述将这些较小的组与其他与他们“相似”的组组合起来。例如,如果较大的组有描述访问问题的票,而较小的组有与登录问题有关的票(取决于文本描述),我更愿意将这两个组放在一起。
我想为每个组创建一个单独的 Word2Vec 或 Glove 嵌入,但后来无法弄清楚如何找到这些向量之间的相似性。此外,创建 45 个不同的 Word2Vec 嵌入在计算上非常痛苦。所以我有点坚持这一点。关于如何解决这个问题的任何想法?任何帮助都会很棒
谢谢 !