1

我是学习Word2Vec的初学者,刚开始从网上做一些关于word2vec的研究。我已经完成了 Quora 和 StackOverflow 中的几乎所有问题,但没有从之前的问题中得到任何答案。所以我的问题是 - 1. 是否可以在抄袭检测中应用 word2vec?2. 如果没有。1 是可能的,那么 Word2Vec 在基于文本的抄袭检测中会比 WordNet 或任何其他词嵌入(如 GloVe、fastText 等)更有效吗?提前致谢。

4

1 回答 1

3

是的,像 word2vec 这样的词义“密集嵌入”模型可能在剽窃检测中很有用。(它们也可能有助于从简单的检测器中混淆抄袭,因为它们可以帮助对现有文本进行自动转换,从而在改变单词的同时保持含义相似。)

只有通过在特定系统中进行测试并进行定量评估,您才能确定它的工作效果如何,或者特定嵌入是否比 WordNet 之类的更好或更差。

在 word2vec、fastttext 和 GloVE 中,结果可能非常相似——它们都使用大致相同的信息(在滑动上下文窗口中的词共现)来生成最大预测词向量——因此它们在相似的训练中表现得非常相似数据。

任何差异都是微妙的——非 GLoVe 选项可能对更大的词汇表更有效;在某些模式下,fasttext 本质上是 word2vec,但添加了新选项,用于对子词 ngram 进行建模(然后可以帮助为未来的词汇外词创建比随机向量更好的向量)或针对分类问题优化向量。

但是,如果训练过程针对您的任务进行了类似的元优化,则可以使用大量训练数据训练的已知单词向量在能力上将非常相似。

于 2017-06-28T11:16:41.603 回答