我正在尝试创建一个计算 2 个字符串之间的相似性的应用程序。琴弦不长。3 句子最长。我做了一些研究,发现了一些可能的解决方案。
第一个使用词袋:计算词并比较生成的 2 个向量(余弦相似度)
第二个使用 TF-IDF 并比较生成的向量。
第三个是使用 word2vec 和比较向量。
现在回答问题。
性能方面,word2vec 的短句性能是否优于 TF-IDF?
训练 word2vec 模型的最佳方法是什么?我应该使用大量文本(例如维基百科转储)还是只使用正在比较的句子来训练它。
如何从 word2vec 中获取句子相似度。我应该平均每个句子中的单词还是有更好的解决方案?