我在使用 Hibernate 3.6.10 的 PostgreSQL 8.4 中将特殊字符(如欧元符号 (€))写入和读取回 LOB 字符串属性时遇到问题。
我所知道的是 PostgreSQL 提供了两种不同的方法来将大字符对象存储在表的列中。它们可以直接存储到该表列中,也可以间接存储在单独的表中(实际上称为 pg_largeobject)。在后一种情况下,该列包含对 pg_largeobject 中行的引用 (OID)。
Hibernate 3.6.10 中的默认行为是间接 OID 方法。但是,可以向 Lob 属性添加额外的注释 @org.hibernate.annotations.Type(type="org.hibernate.type.TextType") 以获得直接存储行为。
两种方法都可以正常工作,除了我想使用像欧元符号 (€) 这样的特殊字符的那一刻。在这种情况下,直接存储机制继续工作,但间接存储机制中断。
我想用一个例子来证明这一点。我创建了一个具有 2 个 @Lob 属性的测试实体。一种遵循直接存储原则,另一种遵循间接存储:
@Basic
@Lob
@Column(name = "CLOB_VALUE_INDIRECT_STORAGE", length = 2147483647)
public String getClobValueIndirectStorage()
和
@Basic
@Lob
@org.hibernate.annotations.Type(type="org.hibernate.type.TextType")
@Column(name = "CLOB_VALUE_DIRECT_STORAGE", length = 2147483647)
public String getClobValueDirectStorage()
如果我创建一个实体,用欧元符号填充两个属性,然后将其保存到数据库中,当我执行 SELECT 时,我看到以下内容
id | clob_value_direct_storage | clob_value_indirect_storage
----+---------------------------+----------------------------
6 | € | 910579
如果我然后查询表 pg_largeobject 我看到:
loid | pageno | data
--------+--------+------
910579 | 0 | \254
pg_largeobject 的 'data' 列是 bytea 类型,这意味着信息存储为原始字节。表达式 '\254' 代表一个单字节,在 UTF-8 中代表字符 '¬'。这正是我从数据库中加载实体时返回的值。
UTF-8 中的欧元符号由 3 个字节组成,所以我预计“数据”列有 3 个字节而不是 1 个字节。
这不仅适用于欧元符号,而且适用于许多特殊字符。这是休眠中的问题吗?还是 JDBC 驱动程序?有没有办法可以调整这种行为?
提前致谢,
亲切的问候,
Franck de Bruijn