我有多个文本文件,我正在尝试找到一种方法来识别相似的文本主体。文件本身由一个“平均”大小的段落组成。除此之外,我还有一些数据可以用作数据的标签,如果我要深入了解诸如 saimese 网络之类的神经网络的话。
虽然这是一个选项,但我想知道的另一种可能性是使用诸如 doc2vec 之类的东西来处理所有段落(删除停用词等),然后尝试根据来自 doc2vec 的余弦找到类似的文本文件。
我想知道上述方法在产生的结果方面通常如何相互比较,并且 doc2vec 是否足够强大和准确,可以将其视为一个可行的选择?我也可能忽略了一个很好的方法。