postgresql - pg_trgm，相似性和通过他们的答案找到重复的问题

问问题 2018-11-03T09:18:36.230

34 次

我有一张名为Questions. 它具有content字段（包含一个问题）和一个answer字段。整个表大约有 22k 行，我正在尝试弄清楚如何根据常见答案搜索重复的问题（尽管我愿意接受更好的建议）。

基本上我想找出一种方法来在某个概率范围内找到可能的重复行。

例如，我有 132 个答案，其中有超过 5 个与它们相关的问题。我该如何比较这些问题以清除可能的重复问题？我可以使用类似的东西similarity按分组比较所有问题answers吗？我只是不太确定这将如何工作，或者是否有更好的方法来追踪这些。

SELECT LOWER(questions.answer) AS answer, count(*) AS same_answer, array_agg(questions.content), array_agg(questions.id)
FROM questions
WHERE questions.answer IS NOT null
AND LOWER(questions.answer) <> 'true'
AND LOWER(questions.answer) <> 'false'
GROUP BY LOWER(questions.answer)
HAVING count(*) > 5
ORDER BY count(*) DESC

任何指针或建议将不胜感激。

postgresql - pg_trgm，相似性和通过他们的答案找到重复的问题

0 回答 0

Related

Reference