我有一个当前包含 1000 万条记录的表。
其中一列是SourceText
类型nvarchar(4000)
。
我需要一种非常有效的方法来搜索 SourceText 以查看它是否包含另一个字符串。
我对表结构具有极大的灵活性——我可以修改插入过程并使用其他更好的索引表来跟踪事物。一种想法是按单词对 SourceText 进行标记并将单词存储在索引表中,然后使用映射表映射到主表。问题是该SourceText
列可以是任何语言,并且总是有规则 re:parantheses 等。例如,在英语中,如果我使用 ' ' 作为分隔符进行标记,我仍然会得到类似(Where
而不是 的东西Where
,这是有问题的。
有任何想法吗?