nlp - NLP - 尝试根据输入维度寻找不同目标群体之间的相似之处

问问题 2020-05-13T08:30:23.100

61 次

因此，我有一个数据集，其中包含一个描述列（IT 故障单描述）和一个目标列（故障单的分组，例如故障单属于组 0 或组 1 - 未提供组类型，例如访问问题）。

问题是：我有 45 个不同的目标变量 - 目标是第 0 组、第 1 组、......第 45 组。这些组中有一个相当长的尾巴，其中一些组的票数不到总票数的 0.1%。现在，不是直接将它们组合在一起形成一个组，而是想看看是否有任何方法可以根据 IT 故障单描述将这些较小的组与其他与他们“相似”的组组合起来。例如，如果较大的组有描述访问问题的票，而较小的组有与登录问题有关的票（取决于文本描述），我更愿意将这两个组放在一起。

我想为每个组创建一个单独的 Word2Vec 或 Glove 嵌入，但后来无法弄清楚如何找到这些向量之间的相似性。此外，创建 45 个不同的 Word2Vec 嵌入在计算上非常痛苦。所以我有点坚持这一点。关于如何解决这个问题的任何想法？任何帮助都会很棒

谢谢！

nlp - NLP - 尝试根据输入维度寻找不同目标群体之间的相似之处

0 回答 0

Related

Reference