我正在使用不使用受控输入的旧数据输入系统。一切都存储在 varchar(max) 字段中,不幸的是,它包含许多关于事物表达方式的变体。
如果我想知道什么时候校准了,我不能只说“where t.col like '%cal%'
它适用于“CAL, CAL., Calib. Calibrate, calibrate, Calibration,calibration, Cal'd...”之类的情况,但不适用于拼写错误的变体。
此外,此人可能会说“NO cal reqd, didn't cal.,”
文本可以“推断”该动作发生。“校准”可以写成“调整到基线,按程序调整”。
正如您在一个案例中所看到的那样,实际上存在数千个潜在的“规则”。
我花了大约 2 周的时间来处理大约 30K 条记录,并将它们智能地解析为数据所属的大约 30 个(0,1 / true/false)类别。
我想知道是否有人可以指出我使用 T-SQL 来代替手动处理的有用查询构造。