5

在我的应用程序中,当我想要导入文件时,我使用 TStringList。

但是,当有人从 Excel 中导出数据时,文件编码是 UCS-2 Little Endian,而 TStringList 无法读取数据。

有什么方法可以验证这种情况,识别文本编码并向用户发送警告,指出所提供的文本不兼容?

为了清楚起见,用户将只提供纯文本..字母和数字,否则,我必须发送警告。

没有 BOM 的 Unicode 文件很好。(TStringList 可以读取它!)
ANSI 文件 太。(TStringList 可以读取它!)
如果有办法删除它,即使带有 BOM 的 Unicode 也会很好。(TStringList 可以读取!但是带有“i”“>>”和“reverse ?”字符,属于 BOM 字节)

4

1 回答 1

7

我在 Delphi 6 中使用了以下函数来检测 Unicode BOM。

const
  //standard byte order marks (BOMs)
  UTF8BOM:              array [0..2] of AnsiChar = #$EF#$BB#$BF;
  UTF16LittleEndianBOM: array [0..1] of AnsiChar = #$FF#$FE;
  UTF16BigEndianBOM:    array [0..1] of AnsiChar = #$FE#$FF;
  UTF32LittleEndianBOM: array [0..3] of AnsiChar = #$FF#$FE#$00#$00;
  UTF32BigEndianBOM:    array [0..3] of AnsiChar = #$00#$00#$FE#$FF;

function FileHasUnicodeBOM(const FileName: string): Boolean;
var
  Buffer: array [0..3] of AnsiChar;
  Stream: TFileStream;
begin
  Stream := TFileStream.Create(FileName, fmOpenRead or fmShareDenyWrite); // Allow other programs read access at the same time.
  Try
    FillChar(Buffer, SizeOf(Buffer), $AA);//fill with characters that we are not expecting then...
    Stream.Read(Buffer, SizeOf(Buffer));  //...read up to SizeOf(Buffer) bytes - there may not be enough
    //use Read rather than ReadBuffer so the no exception is raised if we can't fill Buffer
  Finally
    FreeAndNil(Stream);
  End;
  Result := CompareMem(@UTF8BOM,              @Buffer, SizeOf(UTF8BOM))              or
            CompareMem(@UTF16LittleEndianBOM, @Buffer, SizeOf(UTF16LittleEndianBOM)) or
            CompareMem(@UTF16BigEndianBOM,    @Buffer, SizeOf(UTF16BigEndianBOM))    or
            CompareMem(@UTF32LittleEndianBOM, @Buffer, SizeOf(UTF32LittleEndianBOM)) or
            CompareMem(@UTF32BigEndianBOM,    @Buffer, SizeOf(UTF32BigEndianBOM));
end;

这将检测所有标准 BOM。如果这是您想要的行为,您可以使用它来阻止此类文件。

您声明TStringList如果没有 BOM,Delphi 6 可以加载 16 位编码文件。虽然可能是这种情况,但您会发现,对于 ASCII 范围内的字符,其他每个字符都是#0. 我猜这不是你想要的。

如果您想检测没有 BOM 的文件的文本是 Unicode,那么您可以使用IsTextUnicode. 但是,它可能会产生误报。在这种情况下,我怀疑请求宽恕比请求许可更好。

现在,如果我是你,我实际上不会尝试阻止 Unicode 文件。我会读它们。使用 TNT Unicode 库。您想要的课程称为TWideStringList.

于 2013-04-26T16:01:56.287 回答