python - 如何在 gensim 和 fasttext 中为 word2vec 准备数据？

Question

我想训练 word2vec 和 fasttext 来获取我拥有的特定数据集的向量。

我的模型应该将什么作为输入？

我的文件是这样的：

Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly

现在，我应该如何准备我的数据以供 word2vec 运行？word2vec 模型是否考虑了句子间的相似性，即我是否应该不明智地准备语料库句子。

score 0 · Accepted Answer

一种方法是您首先将文档拆分为行，然后对于每一行，将行拆分为标记。然后你最终得到一个令牌列表列表的语料库。之后，您可以将其输入到 gensim word2vec 模型中。

python - 如何在 gensim 和 fasttext 中为 word2vec 准备数据？

1 回答 1

Related

Reference