1

在为有关汽车的封闭领域主题构建机器学习聊天机器人时,我感到困惑。

我有很多关于不同车型的文本格式信息,并使用这些数据进行 Word2Vec 处理并保存了 Word2Vec.model。

然后通过在 word2vec.model 中查找将问题集和答案集转换为向量。最后,将它们放到 seq2seq 模型中进行网络训练。

————

我的问题:

  1. 我应该构建两个 word2vec.model 而不是一个吗?例如 word2vec_question.model 和 word2vec_answer.model?并输入问题集并根据 word2vec_question.model 转换为向量,而答案集根据 word2vec_answer.model ?

  2. 为什么有些聊天机器人示例不使用词嵌入,而只是将这些问题集和答案集标记化并直接进行 seq2seq 训练?这是因为对话集足够大,可以在没有矢量化的情况下训练 S2S 网络吗?我们是否应该说如果数据足够大,只需标记化就足够了,不需要进行 word2vec 建模?

  3. 回到我的汽车专家系统,请给我一些建议,什么是准备数据并提供给问答示例的正确方法。我的最终愿望是,每周,我向 word2vec 模型提供来自汽车杂志的信息(不是对话形式,而只是关于新车的段落),然后聊天机器人也可以回答有关该新模型的问题。

提前致谢。

4

0 回答 0