10

我在使用 Hibernate 3.6.10 的 PostgreSQL 8.4 中将特殊字符(如欧元符号 (€))写入和读取回 LOB 字符串属性时遇到问题。

我所知道的是 PostgreSQL 提供了两种不同的方法来将大字符对象存储在表的列中。它们可以直接存储到该表列中,也可以间接存储在单独的表中(实际上称为 pg_largeobject)。在后一种情况下,该列包含对 pg_largeobject 中行的引用 (OID)。

Hibernate 3.6.10 中的默认行为是间接 OID 方法。但是,可以向 Lob 属性添加额外的注释 @org.hibernate.annotations.Type(type="org.hibernate.type.TextType") 以获得直接存储行为。

两种方法都可以正常工作,除了我想使用像欧元符号 (€) 这样的特殊字符的那一刻。在这种情况下,直接存储机制继续工作,但间接存储机制中断。

我想用一个例子来证明这一点。我创建了一个具有 2 个 @Lob 属性的测试实体。一种遵循直接存储原则,另一种遵循间接存储:

@Basic
@Lob
@Column(name = "CLOB_VALUE_INDIRECT_STORAGE", length = 2147483647)
public String getClobValueIndirectStorage()

@Basic
@Lob
@org.hibernate.annotations.Type(type="org.hibernate.type.TextType")
@Column(name = "CLOB_VALUE_DIRECT_STORAGE", length = 2147483647)
public String getClobValueDirectStorage()

如果我创建一个实体,用欧元符号填充两个属性,然后将其保存到数据库中,当我执行 SELECT 时,我看到以下内容

 id | clob_value_direct_storage | clob_value_indirect_storage
----+---------------------------+----------------------------
  6 | €                         | 910579                     

如果我然后查询表 pg_largeobject 我看到:

  loid  | pageno | data
--------+--------+------
 910579 |      0 | \254

pg_largeobject 的 'data' 列是 bytea 类型,这意味着信息存储为原始字节。表达式 '\254' 代表一个单字节,在 UTF-8 中代表字符 '¬'。这正是我从数据库中加载实体时返回的值。

UTF-8 中的欧元符号由 3 个字节组成,所以我预计“数据”列有 3 个字节而不是 1 个字节。

这不仅适用于欧元符号,而且适用于许多特殊字符。这是休眠中的问题吗?还是 JDBC 驱动程序?有没有办法可以调整这种行为?

提前致谢,
亲切的问候,
Franck de Bruijn

4

1 回答 1

5

在对 Hibernate 的源代码和 PostgreSQL JDBC 驱动程序进行大量挖掘之后,我设法找到了问题的根本原因。最后调用 BlobOutputStream(由 JDBC 驱动程序提供)的 write() 方法将 Clob 的内容写入数据库。此方法如下所示:

public void write(int b) throws java.io.IOException
{
    checkClosed();
    try
    {
        if (bpos >= bsize)
        {
            lo.write(buf);
            bpos = 0;
        }
        buf[bpos++] = (byte)b;
    }
    catch (SQLException se)
    {
        throw new IOException(se.toString());
    }
}

此方法将“int”(32 位/4 字节)作为参数并将其转换为“字节”(8 位/1 字节),从而有效地丢失 3 字节的信息。Java 中的字符串表示是 UTF-16 编码的,这意味着每个字符由 16 位/2 个字节表示。Euro-sign 具有 int 值 8364。转换为字节后,值 172 仍然存在(以八位字节表示 254)。

我不确定现在最好的解决方案是什么。恕我直言,JDBC 驱动程序应该负责将 Java UTF-16 字符编码/解码为数据库需要的任何编码。但是,我没有看到 JDBC 驱动程序代码中有任何调整的可能性来改变其行为(而且我不想编写和维护我自己的 JDBC 驱动程序代码)。

因此,我使用自定义 ClobType 扩展了 Hibernate,并设法在写入数据库之前将 UTF-16 字符转换为 UTF-8,反之亦然。

解决方案太大,不能简单地粘贴在这个答案中。如果您有兴趣,请给我留言,我将其发送给您。

干杯,弗兰克

于 2012-04-04T10:09:23.697 回答