2

所以,我很无聊,我发现了一个奇怪的不一致之处,我希望能找到更多信息。这涉及 Ruby 中的字符串连接,特别是附加字符串文档所指的“代码点”。

这里有一些例子:

'' << 233 #=> "é"
'' << 256 #=> "Ā"

现在,奇怪的是,在 IRB 中,这两个例子都有效。但是,如果您在文件中创建一个 ruby​​ 类,加载该文件并执行代码,它就会崩溃。请参见以下示例:

class MyConcatenationTest
  def self.test
    '' << 233
    '' << 256
  end
end

然后在 IRB 中:

load 'my_concatenation_test.rb'  #=> true
MyConcatenationTest.test         #=> RangeError: 256 out of char range

所以,我的问题是:为什么这在 IRB 中有效,但在我加载运行同一行代码的脚本时无效?

如果您更改课程,请注意其他一些事项:

class MyConcatenationTest
  def self.test
    '' << 233
    #'' << 256
  end
end

...然后重新加载/运行该方法,它返回 233 的 \x 转义值,而不是之前的“é”:

load 'my_concatenation_test.rb'
MyConcatenationTest.test          #=> "\xE9"

那么……这是怎么回事?两个字符串都具有相同的编码 (UTF-8),将其更改为 ASCII 似乎没有任何区别。

编辑:我应该提到我在上面的示例中使用了 256,因为这是它爆炸的最低数字。很明显,它吓坏了,因为它无法正确处理高于 "\xFF" 的任何东西。为了澄清我的问题,我很想知道为什么当代码存在于加载的 ruby​​ 文件中而不存在于 IRB 中时存在此限制。

4

1 回答 1

3

您使用哪个红宝石版本?这可能是因为在 ruby​​ 1.9(及更早版本)中,UTF-8 不是默认编码。

将您的文件修改为以下建议 ruby​​ 使用 UTF-8 来解析您的文件。

# ~coding: utf-8
class MyConcatenationTest
  def self.test
    '' << 233
    '' << 256
  end
end

如果您在 ruby​​ 2.0 中执行该文件,它会按预期工作而无需魔术注释,因为 UTF-8 是 ruby​​ 2.0 中的默认编码。

为什么它可以在 irb 中工作(即使使用 ruby​​ 1.9.3)?

irb使用$LANG环境变量来确定它应该使用哪种编码。我的(也许是你的?)$LANG设置为en_US.UTF-8,这使得irb使用 UTF-8 编码。

您可以开始irb使用irb -EISO-8859-1(或其他一些编码)来改变它。

$ irb -EISO-8859-1 # start irb with ISO-8859-1 encoding
irb(main):001:0> "".encoding
=> #<Encoding:ISO-8859-1>
于 2013-09-12T20:07:15.913 回答