在信息检索或问答系统中,我们使用 TD-IDF 或 BM25 计算问题-问题对的相似度得分作为深度学习的基线或粗略排名。
在社区问答中,我们已经有了问答对来收集一些统计信息。如果没有深度学习,我们是否可以发明像 BM25 这样的算法来计算问答对的相关性分数?
有哪些方法可以做到?
在信息检索或问答系统中,我们使用 TD-IDF 或 BM25 计算问题-问题对的相似度得分作为深度学习的基线或粗略排名。
在社区问答中,我们已经有了问答对来收集一些统计信息。如果没有深度学习,我们是否可以发明像 BM25 这样的算法来计算问答对的相关性分数?
有哪些方法可以做到?
如果没有深度学习,我们是否可以发明像 BM25 这样的算法来计算问答对的相关性分数?
是的,有很多方法可以做到这一点。为了让你的问题更有针对性,让我们回答“在不使用问答的情况下,有哪些可能的方法来计算问答对的相关性?”
一些例子和解释:
TF-IDF [你提到的]实际上是一种特征提取技术。使用它,您可以从上下文中检索每个文档中存在/重要的单词 - 使用它,您可以比较两个相似的措辞(这就是 BM25 所做的)。
另一种技术是使用PageRank,这是 Google 使用的算法。您实际上可以尝试复制它,因为它并不太复杂。
另一种方法是使用图表来做到这一点。我在我的硕士研究中做到了,你可以在这里阅读我的论文。
除此之外,我建议您查看本文以了解其他问答示例(如果您了解这些概念,您可以轻松进行问答匹配):https ://www.sciencedirect.com/science/文章/pii/S0020025511003860和https://www.sciencedirect.com/science/article/pii/S1319157815000890?via%3Dihub。
此外,请继续检查ACL 最先进的问答技术以获取最新的结果和技术。