hibernate - 无法使用 Hibernate/PostgreSQL 将欧元符号存储到 LOB 字符串属性中

Question

我在使用 Hibernate 3.6.10 的 PostgreSQL 8.4 中将特殊字符（如欧元符号 (€)）写入和读取回 LOB 字符串属性时遇到问题。

我所知道的是 PostgreSQL 提供了两种不同的方法来将大字符对象存储在表的列中。它们可以直接存储到该表列中，也可以间接存储在单独的表中（实际上称为 pg_largeobject）。在后一种情况下，该列包含对 pg_largeobject 中行的引用 (OID)。

Hibernate 3.6.10 中的默认行为是间接 OID 方法。但是，可以向 Lob 属性添加额外的注释 @org.hibernate.annotations.Type(type="org.hibernate.type.TextType") 以获得直接存储行为。

两种方法都可以正常工作，除了我想使用像欧元符号 (€) 这样的特殊字符的那一刻。在这种情况下，直接存储机制继续工作，但间接存储机制中断。

我想用一个例子来证明这一点。我创建了一个具有 2 个 @Lob 属性的测试实体。一种遵循直接存储原则，另一种遵循间接存储：

@Basic
@Lob
@Column(name = "CLOB_VALUE_INDIRECT_STORAGE", length = 2147483647)
public String getClobValueIndirectStorage()

和

@Basic
@Lob
@org.hibernate.annotations.Type(type="org.hibernate.type.TextType")
@Column(name = "CLOB_VALUE_DIRECT_STORAGE", length = 2147483647)
public String getClobValueDirectStorage()

如果我创建一个实体，用欧元符号填充两个属性，然后将其保存到数据库中，当我执行 SELECT 时，我看到以下内容

 id | clob_value_direct_storage | clob_value_indirect_storage
----+---------------------------+----------------------------
  6 | €                         | 910579

如果我然后查询表 pg_largeobject 我看到：

  loid  | pageno | data
--------+--------+------
 910579 |      0 | \254

pg_largeobject 的 'data' 列是 bytea 类型，这意味着信息存储为原始字节。表达式 '\254' 代表一个单字节，在 UTF-8 中代表字符 '¬'。这正是我从数据库中加载实体时返回的值。

UTF-8 中的欧元符号由 3 个字节组成，所以我预计“数据”列有 3 个字节而不是 1 个字节。

这不仅适用于欧元符号，而且适用于许多特殊字符。这是休眠中的问题吗？还是 JDBC 驱动程序？有没有办法可以调整这种行为？

提前致谢，
亲切的问候，
Franck de Bruijn

score 5 · Accepted Answer

在对 Hibernate 的源代码和 PostgreSQL JDBC 驱动程序进行大量挖掘之后，我设法找到了问题的根本原因。最后调用 BlobOutputStream（由 JDBC 驱动程序提供）的 write() 方法将 Clob 的内容写入数据库。此方法如下所示：

public void write(int b) throws java.io.IOException
{
    checkClosed();
    try
    {
        if (bpos >= bsize)
        {
            lo.write(buf);
            bpos = 0;
        }
        buf[bpos++] = (byte)b;
    }
    catch (SQLException se)
    {
        throw new IOException(se.toString());
    }
}

此方法将“int”（32 位/4 字节）作为参数并将其转换为“字节”（8 位/1 字节），从而有效地丢失 3 字节的信息。Java 中的字符串表示是 UTF-16 编码的，这意味着每个字符由 16 位/2 个字节表示。Euro-sign 具有 int 值 8364。转换为字节后，值 172 仍然存在（以八位字节表示 254）。

我不确定现在最好的解决方案是什么。恕我直言，JDBC 驱动程序应该负责将 Java UTF-16 字符编码/解码为数据库需要的任何编码。但是，我没有看到 JDBC 驱动程序代码中有任何调整的可能性来改变其行为（而且我不想编写和维护我自己的 JDBC 驱动程序代码）。

因此，我使用自定义 ClobType 扩展了 Hibernate，并设法在写入数据库之前将 UTF-16 字符转换为 UTF-8，反之亦然。

解决方案太大，不能简单地粘贴在这个答案中。如果您有兴趣，请给我留言，我将其发送给您。

干杯，弗兰克

hibernate - 无法使用 Hibernate/PostgreSQL 将欧元符号存储到 LOB 字符串属性中

1 回答 1

Related

Reference