我想训练 word2vec 和 fasttext 来获取我拥有的特定数据集的向量。
我的模型应该将什么作为输入?
我的文件是这样的:
Customer_4: I want to book a ticket to New York.
Agent_9: Okay, when do you want the tickets for
Customer_4: hmm, wait a sec
Agent_9: Sure
Customer_4: When is the least expensive to fly
现在,我应该如何准备我的数据以供 word2vec 运行?word2vec 模型是否考虑了句子间的相似性,即我是否应该不明智地准备语料库句子。