我有一张名为Questions
. 它具有content
字段(包含一个问题)和一个answer
字段。整个表大约有 22k 行,我正在尝试弄清楚如何根据常见答案搜索重复的问题(尽管我愿意接受更好的建议)。
基本上我想找出一种方法来在某个概率范围内找到可能的重复行。
例如,我有 132 个答案,其中有超过 5 个与它们相关的问题。我该如何比较这些问题以清除可能的重复问题?我可以使用类似的东西similarity
按分组比较所有问题answers
吗?我只是不太确定这将如何工作,或者是否有更好的方法来追踪这些。
SELECT LOWER(questions.answer) AS answer, count(*) AS same_answer, array_agg(questions.content), array_agg(questions.id)
FROM questions
WHERE questions.answer IS NOT null
AND LOWER(questions.answer) <> 'true'
AND LOWER(questions.answer) <> 'false'
GROUP BY LOWER(questions.answer)
HAVING count(*) > 5
ORDER BY count(*) DESC
任何指针或建议将不胜感激。