0

我已经阅读了以下线程,并且能够制作一个转换脚本(基于 C#),它将我的所有charset=NONE数据库转换为charset=UTF8并且其中大部分工作得很好(我仍然有一些特殊情况下字符被转换为奇怪的符号,但是那是边缘的)。

我的问题是我有很多备份数据库文件 ( *.fbk),我不确定这是UTF8还是NONE. 在理想情况下,我的代码将根据文件的格式从文件中恢复数据库后处理转换fbk,因此我只在必要时和恢复后进行转换。

这是可能吗?或者有没有办法charset在恢复数据库时定义(gback通过 ADO.NET 提供程序)?

4

1 回答 1

0

一般来说,Firebird 数据库没有单一的字符集。每一列都可以有自己的字符集。所以你唯一能做的就是尝试使用启发式方法。

  1. 使用数据库默认字符集。需要明确的是,数据库默认字符集仅在未指定显式字符集时创建新列时使用。数据库完全有可能具有默认字符集 UTF8,而所有列都具有字符集 WIN1251!

    您可以使用以下查询找到数据库默认字符集:

    select RDB$CHARACTER_SET_NAME from RDB$DATABASE 
    

    注意:如果结果为NULL,则表示默认字符集为 NONE。

  2. 计算 CHAR、VARCHAR 和 BLOB SUB_TYPE TEXT 列的不同字符集,看看哪个出现最多:

    select 
      coalesce(cs.RDB$CHARACTER_SET_NAME, 'NONE') as CHARSET, 
      count(*) as CHARSET_COUNT
    from RDB$RELATIONS r
    inner join RDB$RELATION_FIELDS rf
      on rf.RDB$RELATION_NAME = r.RDB$RELATION_NAME
    inner join RDB$FIELDS f 
      on f.RDB$FIELD_NAME = rf.RDB$FIELD_SOURCE
    left join RDB$CHARACTER_SETS cs
      on cs.RDB$CHARACTER_SET_ID = f.RDB$CHARACTER_SET_ID 
    where coalesce(r.RDB$SYSTEM_FLAG, 0) = 0
    and r.RDB$VIEW_BLR is null
    and (f.RDB$FIELD_TYPE in (14, 37) or f.RDB$FIELD_TYPE = 261 and f.RDB$FIELD_SUB_TYPE = 1)
    group by 1
    order by 2 desc
    

顺便说一句,请注意,如果客户端使用了连接字符集 NONE,那么一列内容的实际字符集完全有可能与该列的定义字符集不匹配。

于 2021-07-17T06:51:17.927 回答