nlp - word2vec lemmatization of corpus before training

Question

Word2vec seems to be mostly trained on raw corpus data. However, lemmatization is a standard preprocessing for many semantic similarity tasks. I was wondering if anybody had experience in lemmatizing the corpus before training word2vec and if this is a useful preprocessing step to do.

score 9 · Accepted Answer

我认为你想用这个解决什么问题真的很重要。这取决于任务。

基本上通过词形还原，您可以使输入空间更稀疏，如果您没有足够的训练数据，这会有所帮助。

但是由于 Word2Vec 相当大，如果你有足够大的训练数据，词形还原应该不会给你带来太多好处。

更有趣的是，如何对 W2V（或其他任何东西）中现有的词向量词典进行标记化。就像“好的松饼在纽约花费 3.88 美元。” 需要将其标记为 ['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New York.'] 然后您可以将其替换为来自 W2V 的向量。挑战在于，一些标记器将“纽约”标记为 ['New' 'York']，这没有多大意义。（例如，NLTK 犯了这个错误https://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html）当你有很多多词短语时，这是一个问题。

score 3 · Accepted Answer

我正在进行的当前项目涉及使用 Word2Vec 创建的向量空间识别生物学论文摘要中的基因名称。当我们在不对语料库进行词形还原的情况下运行算法时，主要会出现两个问题：

词汇量太大了，因为你有不同形式的单词最终具有相同的含义。
如上所述，您的空间变得不那么稀疏，因为您获得了更多代表某种“意义”的代表，但与此同时，其中一些意义可能会在其代表之间分裂，让我用一个例子来澄清

我们目前对首字母缩写词 BAD 识别的基因感兴趣。同时，“bad”是一个英文单词，有不同的形式（badly，worst，...）。由于 Word2vec 基于上下文（其周围的词）概率构建其向量，因此当您不对其中一些形式进行词形还原时，您最终可能会丢失其中一些词之间的关系。这样，在 BAD 情况下，您最终可能会得到一个更接近基因名称的词，而不是向量空间中的形容词。

nlp - word2vec lemmatization of corpus before training

2 回答 2

Related

Reference