.net - 在 SQL Server TEXT 列中查找常用短语

Question

简短描述：

我很想知道是否可以使用 SQL 分析服务或其他一些 SQL Server 服务来为我挖掘一些数据，这些数据将显示数据集中 SQL TEXT 字段之间的共性。

长描述

我正在查看由大约 10,000 行 TEXT blob 组成的数据子集，这些数据在问题跟踪（票务）软件中用作注释列。我想使用一些开箱即用的东西（无需构建一些东西），它可能能够解析所有行并在“Notes”列中找到常用的字节序列。换句话说，我想找到常用的短语（两到三个单词短语，所以 TEXT blob 的 9 - 20 个字符部分）。这将帮助我更好地确定员工的笔记是否包含我们可以在故障排除流程中标准化的类似短语（故障排除技术）。

结束语

我真的不想构建一个应用程序来做到这一点，因为我的方法可能不是最有效的方法。

或者，如果没有人知道开箱即用的解决方案，您能否推荐任何我可以在代码中使用的算法，我可以在其中对一组值进行字符串比较？

希望这一切都有意义。如果有任何需要澄清的地方，请在评论中告诉我。

score 1 · Accepted Answer

您可以使用 SQL Server Integration Services（企业版和开发版）中的文本挖掘转换来执行术语查找和术语提取，然后使用 Analysis Services 中的关联规则来构建术语关联模型。有一个老化教程应该仍然有效（需要免费登录）

我们将在今年晚些时候宣布与此相关的内容 - 如果您对 beta 测试感兴趣，可以在我们的网站 (predixionsoftware.com) 上留下反馈。

-Jamie MacLennan 首席技术官 Predixion Software

.net - 在 SQL Server TEXT 列中查找常用短语

1 回答 1

Related

Reference