0

我正在使用不使用受控输入的旧数据输入系统。一切都存储在 varchar(max) 字段中,不幸的是,它包含许多关于事物表达方式的变体。

如果我想知道什么时候校准了,我不能只说“where t.col like '%cal%'

它适用于“CAL, CAL., Calib. Calibrate, calibrate, Calibration,calibration, Cal'd...”之类的情况,但不适用于拼写错误的变体。

此外,此人可能会说“NO cal reqd, didn't cal.,”

文本可以“推断”该动作发生。“校准”可以写成“调整到基线,按程序调整”。

正如您在一个案例中所看到的那样,实际上存在数千个潜在的“规则”。

我花了大约 2 周的时间来处理大约 30K 条记录,并将它们智能地解析为数据所属的大约 30 个(0,1 / true/false)类别。

我想知道是否有人可以指出我使用 T-SQL 来代替手动处理的有用查询构造。

4

1 回答 1

0

我发现以下由 Microsoft MVP Dejan Sarka 编写:使用 SQL Server 2012-2014 索引、查询和分析文本http ://www.pluralsight.com/courses/description/indexing-querying-analyzing-text-with-sqlserver -2012-2014

该页面说“很难想象没有像 Bing 或 Google 这样的现代搜索引擎在 Web 上搜索某些东西。但是,大多数现代应用程序仍然将用户限制为只能进行精确搜索。对于最终用户,即使是标准的 SQL LIKE 运算符也不强大足够近似搜索了。此外,许多文档都存储在现代数据库中,最终用户可能也希望在文档内容中获得强大的搜索。文本挖掘也变得越来越流行。每个人都希望从博客中了解数据,网站和社交媒体。Microsoft SQL Server 2012 和 2014 版本增强了以前版本中基本可用的全文搜索支持。语义搜索是全文搜索中的一个新组件,可以帮助您理解文档的含义。最后,SQL Server Integration Services 中的术语提取和术语查找组件也有帮助。”

这与我所寻求的一致。谢谢!-S

于 2014-10-02T18:47:17.550 回答