2

我有一个 1,000,000 行加上字符串表,由于编码错误,里面有一些垃圾。

垃圾很少,但需要找到。

有问题的NVARCHAR列是通常包含 11 种语言之一的文本的列。

所有文本都应该是 unicode(当我们在应用程序端处理它时为 utf-8)。

损坏的列包含?字符和/或非常有限的异常字形集,肉眼很容易看出它们不是有效语言。这些列很可能已被前后编码为总垃圾。

所以以速度的名义,我可以在 SQL Server 上做些什么来检测错误的编码/字符串垃圾吗?

谢谢。

编辑添加垃圾示例:

这是俄语 ил¡

4

0 回答 0