3

我正在从 YouTube 中提取一些 UTF8 无效的 RSS 提要。我可以使用创建一个类似的 ruby​​ 字符串

bad_utf8 = "\u{61B36}"
bad_utf8.encoding # => #<Encoding:UTF-8>
bad_utf8.valid_encoding? # => true

Ruby 认为这是一种有效的 UTF-8 编码,我很确定它不是。

与 Mysql 交谈时出现这样的错误

require 'mysql2'
client = Mysql2::Client.new(:host => "localhost", :username => "root")
client.query("use test");

bad_utf8 = "\u{61B36}"
client.query("INSERT INTO utf8 VALUES ('#{moo}')")

# Incorrect string value: '\xF1\xA1\xAC\xB6' for column 'string' at row 1 (Mysql2::Error)

在将它们发送到 MySQL 之前,如何检测或修复这些无效类型的编码?

4

2 回答 2

2

我不依赖 Ruby 内置的 String.valid_encoding?,因为以下也是可能的:

irb
1.9.3-p125 :001 > bad_utf8 = "\u{0}"
 => "\u0000" 
1.9.3-p125 :002 > bad_utf8.valid_encoding?
 => true 
1.9.3-p125 :003 > bad_utf8.encoding
 => #<Encoding:UTF-8>

这是有效的 UTF-8(参考:https ://en.wikipedia.org/wiki/Utf8 ),但我发现字符串中 NULL 字符的存在通常是对先前转换错误的提示(例如,从在 html 页面中发现无效的编码信息)。

我为“Modified UTF-8”创建了自己的验证函数,它可以采用 :bmp_only 选项将验证限制在基本多语言平面 (0x1-0xffff)。这对于大多数现代语言来说应该足够了(参考:https ://en.wikipedia.org/wiki/Unicode_plane )。

在这里找到验证器:https ://gist.github.com/2295531

于 2012-04-03T21:20:34.553 回答
1

可能是因为代码点不在基本的多语言平面 中,这是 MySQL 在其“utf8”字符集中允许的唯一字符。

较新版本的 mysql 有另一个称为“utf8mb4”的字符集,它支持 BMP 之外的 unicode 字符

但你可能不想使用它。仔细考虑您的用例。很少有真正的人类语言(如果有的话)使用 BMP 之外的字符。

于 2011-05-09T06:44:51.117 回答