2

我想训练 word2vec 和 fasttext 来获取我拥有的特定数据集的向量。

我的模型应该将什么作为输入?

我的文件是这样的:

Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly

现在,我应该如何准备我的数据以供 word2vec 运行?word2vec 模型是否考虑了句子间的相似性,即我是否应该不明智地准备语料库句子。

4

1 回答 1

0

一种方法是您首先将文档拆分为行,然后对于每一行,将行拆分为标记。然后你最终得到一个令牌列表列表的语料库。之后,您可以将其输入到 gensim word2vec 模型中。

于 2018-10-28T23:51:00.137 回答