0

In Mikolov 2014 paper regarding paragraph2Vectors, https://arxiv.org/pdf/1405.4053v2.pdf, do the authors assume in both PV-DM and PV-DBOW, the ordering of sentences need to make sense?

Imagine I am handling a stream of tweets, and each tweet is a paragraph. The paragraphs/tweets do not necessarily have ordering relations. After training, does the vector embedding for paragraphs still make sense?

4

1 回答 1

1

每个文档/段落都被视为一个单独的单元进行训练——并且没有明确的方式可以让相邻的文档直接影响文档的向量。所以文档的顺序不必是自然的。

事实上,您通常希望将所有相似的文本示例聚集在一起——例如,所有关于某个主题或使用特定词汇的所有训练示例的前面或后面。这意味着这些示例都以相似的alpha学习率进行训练,并且影响所有相关单词,而不会与其他单词交错偏移示例。这些中的任何一个都可能使模型在所有可能的文档中稍微不那么平衡/通用。出于这个原因,如果您的自然排序可能不会在训练语料库中均匀分布所有主题/词汇,那么在训练 gensim Doc2Vec(或)模型之前至少执行一次文本示例的初始洗牌可能会很好。Word2Vec

PV-DM 模式(dm=1gensim 中的默认模式)确实涉及滑动附近单词的上下文窗口,因此每个示例中的单词接近度很重要。(不要在每个文本中打乱单词!)

于 2018-02-10T21:12:16.470 回答