我有一堆文本(标题+消息),我想为它们添加标签。我通过这种方式处理了每个文本:
- 忽略冠词、代词等('a'、'an'、'the'、'him'、'them'等)
- 忽略连字符
- 保留专有名词
并获取每个文本的类型标签及其条目数。
现在我有标签和文本ID的关系频率表:
tag_id1 | tag_id2 | tag_id3 | tag_id4
text_id1 | 10 | 1 | 3 | 1
text_id2 | 1 | 1 | 1 | 1
text_id3 | 13 | 0 | 2 | 0
text_id4 | 9 | 1 | 2 | 1
text_id5 | 0 | 0 | 0 | 0
如何通过 mysql 查询确定 text_id1 的类似文本?我想得到类似排序列表 text_id3 text_id4 text_id2
“Jaccard 相似度”算法是不够的,因为它只计算标签关系