尝试改进我的聊天应用程序:
使用我的域中以前的(预处理的)聊天交互,我构建了一个工具,为用户提供给定聊天上下文的 5 种可能的话语,例如:
生:“嗨,约翰。”
上下文:嗨 [[USER_NAME]]
话语:[嗨,你好,你好吗,你好,再次你好]
当然,结果并不总是相关的,例如:
Raw:“嗨,John。你好吗?我很好,你在办公室吗?”
语境:嗨 [[USER_NAME]] 你好吗,我很好,你在办公室吗?
话语:[是的,不,嗨,是的,我是,你好吗]
我将Elasticsearch与 TF/IDF 相似性模型和结构如下的索引一起使用:
{
"_index": "engagements",
"_type": "context",
"_id": "48",
"_score": 1,
"_source": {
"context": "hi [[USER_NAME]] how are you i am fine are you in the office",
"utterance": "Yes I am"
}
}
问题:我确定对于上下文“嗨 [[USER_NAME]] 你好吗,我很好,你在办公室吗”,“是的,我是”这句话是相关的,但是“是”、“否”也是相关的因为它们出现在类似的背景下。
尝试使用这个优秀的视频,作为一个起点
问:如果我所知道的(从我的原始数据中)只是一个真实的话语,我如何衡量准确率和召回率?