30

Word2vec seems to be mostly trained on raw corpus data. However, lemmatization is a standard preprocessing for many semantic similarity tasks. I was wondering if anybody had experience in lemmatizing the corpus before training word2vec and if this is a useful preprocessing step to do.

4

2 回答 2

9

我认为你想用这个解决什么问题真的很重要。这取决于任务。

基本上通过词形还原,您可以使输入空间更稀疏,如果您没有足够的训练数据,这会有所帮助。

但是由于 Word2Vec 相当大,如果你有足够大的训练数据,词形还原应该不会给你带来太多好处。

更有趣的是,如何对 W2V(或其他任何东西)中现有的词向量词典进行标记化。就像“好的松饼在纽约花费 3.88 美元。” 需要将其标记为 ['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New York.'] 然后您可以将其替换为来自 W2V 的向量。挑战在于,一些标记器将“纽约”标记为 ['New' 'York'],这没有多大意义。(例如,NLTK 犯了这个错误https://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html)当你有很多多词短语时,这是一个问题。

于 2014-05-27T09:02:31.873 回答
3

我正在进行的当前项目涉及使用 Word2Vec 创建的向量空间识别生物学论文摘要中的基因名称。当我们在不对语料库进行词形还原的情况下运行算法时,主要会出现两个问题:

  • 词汇量太大了,因为你有不同形式的单词最终具有相同的含义。
  • 如上所述,您的空间变得不那么稀疏,因为您获得了更多代表某种“意义”的代表,但与此同时,其中一些意义可能会在其代表之间分裂,让我用一个例子来澄清

我们目前对首字母缩写词 BAD 识别的基因感兴趣。同时,“bad”是一个英文单词,有不同的形式(badly,worst,...)。由于 Word2vec 基于上下文(其周围的词)概率构建其向量,因此当您不对其中一些形式进行词形还原时,您最终可能会丢失其中一些词之间的关系。这样,在 BAD 情况下,您最终可能会得到一个更接近基因名称的词,而不是向量空间中的形容词。

于 2016-05-27T15:12:56.600 回答