1

请原谅我缺乏适当的术语,因为我确信有一个术语。我正在使用原始字符串编写 XML 文本(为了便于使用,不使用任何类型的 XML 构建器/解析器)。但是,我面临一个问题,即我提供的数据中的某些字符会脱离标准化。例如,&符号。当一个字符串包含这个时,结束解析器就会被抛出。如何正确适应这种情况并将字符串转换为 XML 标准?

我正在将纯字符串写入字符串列表并读取其Text属性,如下所示。请注意子例程A(const S: String);,它是向 XML 文件添加一行并添加必要缩进的缩短方法。看子程序Standardize,这是我需要填写的。

uses Windows, Classes, SysUtils, DB, ADODB, ActiveX;

function TSomething.FetchXML(const SQL: String): String;
var
  L: TStringList;
  Q: TADOQuery;
  X, Y: Integer;
  function Standardize(const S: String): String;
  begin
    Result:= S; //<<<--- Need to convert string to XML standards
  end;
  procedure A(const Text: String; const Indent: Integer = 0);
  var
    I: Integer;
    S: String;
  begin
    if Indent > 0 then
      for I := 0 to Indent do
        S:= S + '  ';
    L.Append(S + Text);
  end;
begin
  Result:= '';
  L:= TStringList.Create;
  try
    Q:= TADOQuery.Create(nil);
    try
      Q.ConnectionString:= FCredentials.ConnectionString;
      Q.SQL.Text:= SQL;
      Q.Open;
      A('<?xml version="1.0" encoding="UTF-8"?>');
      A('<dataset Source="ECatAPI">');
      A('<table>');
      A('<fields>', 1);
      for X := 0 to Q.FieldCount - 1 do begin
        A('<field Name="'+Q.Fields[X].FieldName+'" '+
          'Type="'+IntToStr(Integer(Q.Fields[X].DataType))+'" '+
          'Width="'+IntToStr(Q.Fields[X].DisplayWidth)+'" />', 2);
      end;
      A('</fields>', 1);
      A('<rows>', 1);
      if not Q.IsEmpty then begin
        Q.First;
        while not Q.Eof do begin
          A('<row>', 2);
          for Y:= 0 to Q.FieldCount - 1 do begin
            A('<value Field="'+Q.Fields[Y].FieldName+'">'+
              Standardize(Q.Fields[Y].AsString)+'</value>', 3);
          end;
          A('</row>', 2);
          Q.Next;
        end;
      end;
      A('</rows>', 1);
      A('</table>');
      A('</dataset>');
      Result:= L.Text;
      Q.Close;
    finally
      Q.Free;
    end;
  finally
    L.Free;
  end;
end;

笔记

以上是伪代码,复制修改,不相关的东西已经修改/排除了……

更多信息

此应用程序是一个独立的 Web 服务器,提供对数据的只读访问。我只需要编写 XML 数据,不需要读取它。即使我这样做了,我也已经有一个涵盖该部分的 XML 解析器库。我试图尽可能地保持这种轻量级,而不用不必要的对象填充内存。

4

5 回答 5

4

不要手动生成 XML PERIOD。

为转义复杂数据(例如 XML、HTML 或 XML 中的其他 SGML、转义的 CDATA)编写正确的代码是不值得的。

你所做的逃避只是一个开始。等到有人在您的数据中放入不兼容的内容。

无论如何,许多数据库都支持从查询创建格式良好的 XML(请参阅其他答案),这是您应该研究的方向。

于 2012-08-31T09:50:11.187 回答
3

另一个提示:也许您的数据库支持将结果生成为 XML。

于 2012-08-31T09:00:30.723 回答
1

感谢上面问题中的评论,我已经实现了一个函数来用适当的名称替换预定义的实体。这是新的子程序:

function EncodeXmlStr(const S: String): String;
begin
  Result:= StringReplace(S,      '&',  '&amp;',  [rfReplaceAll]);
  Result:= StringReplace(Result, '''', '&apos;', [rfReplaceAll]);
  Result:= StringReplace(Result, '"',  '&quot;', [rfReplaceAll]);
  Result:= StringReplace(Result, '<',  '&lt;',   [rfReplaceAll]);
  Result:= StringReplace(Result, '>',  '&gt;',   [rfReplaceAll]);
end;
于 2012-08-31T03:30:35.673 回答
1

Jerry 的解决方案是一个很好的解决方案。

值得注意的是,现有的 VCL 程序可以做到这一点。

单元 IdStrings 具有 StrXHtmlEncode()。这与 Jerry 的解决方案相同。

单位 HttpApp 有 HTMLEncode()。这个函数比 Jerry 的解决方案更有效——但要注意——这个过程实际上被 unicode 字符串破坏了。它在 unicode 之前的编译器中可以正常工作,但没有为 unicode 正确升级,并且该错误从未得到修复。

HttpApp.HTMLEncode() 的 Unicode 安全版本,添加了 apos 替换,如下所示。它比 StringReplace() 风格更冗长,但在运行时性能方面效率更高。(apos 是 XML 和 XHTHML 的预定义实体,但不是 HTML 4)。

function XHTMLEncode( const sRawValue: string): string;
var
  Sp, Rp: PChar;
begin
  SetLength( result, Length( sRawValue) * 10);
  Sp := PChar( sRawValue);
  Rp := PChar( result);
  while Sp^ <> #0 do
  begin
    case Sp^ of
      '&': begin
             FormatBuf( Rp^, 10, '&amp;', 10, []);
             Inc(Rp,4);
           end;
      '<',
      '>': begin
             if Sp^ = '<' then
               FormatBuf(Rp^, 8, '&lt;', 8, [])
             else
               FormatBuf(Rp^, 8, '&gt;', 8, []);
             Inc(Rp,3);
           end;
      '"': begin
             FormatBuf(Rp^, 12, '&quot;', 12, []);
             Inc(Rp,5);
           end;
      '''': begin
             FormatBuf(Rp^, 12, '&apos;', 12, []);
             Inc(Rp,5);
           end;
    else
      Rp^ := Sp^
    end;
    Inc(Rp);
    Inc(Sp);
  end;
  SetLength( result, Rp - PChar( result))
end;
于 2012-08-31T06:43:37.793 回答
0

由于将 FormatBuf 移动到 ansistring,Sean B. Durkin 的答案现在已被弃用。此外,他的实现不会在所有平台上都有效。因此,我使用 stringbuilder 编写了一个更好的解决方案。

function HTMLEncodeStr(const aStr: String): string;
var
  c: Char;
  sb: TStringbuilder;
begin
  sb := TStringbuilder.Create;
  try
    for c in aStr do
    begin
      if      (c = '<')  then sb.Append('&lt;')
      else if (c = '>')  then sb.Append('&gt;')
      else if (c = '&')  then sb.Append('&amp;')
      else if (c = '"')  then sb.Append('&quot;')
      else if (c = '''') then sb.Append('&apos;')
      else sb.Append(c);
    end;
    result := sb.ToString;
  finally
    sb.Free;
  end;
end;
于 2021-10-21T08:28:59.843 回答