我有一堆文本(标题+消息),我想为它们添加标签。我通过这种方式处理了每个文本:
- 忽略冠词、代词等('a'、'an'、'the'、'him'、'them'等)
 - 忽略连字符
 - 保留专有名词
 
并获取每个文本的类型标签及其条目数。
现在我有标签和文本ID的关系频率表:
                 tag_id1 | tag_id2 | tag_id3 | tag_id4
      text_id1  | 10     |  1      | 3       |   1   
      text_id2  | 1      |  1      | 1       |   1
      text_id3  | 13     |  0      | 2       |   0
      text_id4  | 9      |  1      | 2       |   1
      text_id5  | 0      |  0      | 0       |   0
如何通过 mysql 查询确定 text_id1 的类似文本?我想得到类似排序列表 text_id3 text_id4 text_id2
“Jaccard 相似度”算法是不够的,因为它只计算标签关系