我有两个表,其中有来自两个不同来源的数据。每个表的一个字段包含电影的标题,但由于某种我无法控制的原因,标题并不总是完全相同。
所以我使用ts_vector
来消除所有细微的差异(停用词、复数等)。
在此处查看示例:http ://sqlfiddle.com/#!17/5ccbc/3
我的问题是如何在ts_vector
不考虑数字值的情况下比较两者,而只考虑文本内容。如果我直接比较这两个字段,我只会得到值之间的完全匹配,包括每个单词的位置。我发现的唯一解决方案是使用该strip()
函数,从 tsvector 中删除位置和权重,只留下文本内容。
我想知道是否有最快的比较方法ts_vectors
。