我有一个 1,000,000 行加上字符串表,由于编码错误,里面有一些垃圾。
垃圾很少,但需要找到。
有问题的NVARCHAR
列是通常包含 11 种语言之一的文本的列。
所有文本都应该是 unicode(当我们在应用程序端处理它时为 utf-8)。
损坏的列包含?
字符和/或非常有限的异常字形集,肉眼很容易看出它们不是有效语言。这些列很可能已被前后编码为总垃圾。
所以以速度的名义,我可以在 SQL Server 上做些什么来检测错误的编码/字符串垃圾吗?
谢谢。
编辑添加垃圾示例:
这是俄语 ил¡