1

我尝试使用以下 PHP 脚本将一些数据保存到 xml 文件中:

<?php

$string = '<a href="google.com/maps">Go to google maps</a> and some special characters ë è & ä etc.';

$string = htmlentities($string, ENT_QUOTES, 'UTF-8');

$doc = new DOMDocument('1.0', 'UTF-8');
$doc->preserveWhiteSpace = false;
$doc->formatOutput = true;

$root = $doc->createElement('top');
$root = $doc->appendChild($root);

$title = $doc->createElement('title');
$title = $root->appendChild($title);

$id = $doc->createAttribute('id');
$id->value = '1';
$text = $title->appendChild($id);

$text = $doc->createTextNode($string);
$text = $title->appendChild($text);

$doc->save('data.xml');

echo 'data saved!';

?>

我正在使用 htmlentities 将所有字符串转换为 html 格式,如果我忽略它,特殊字符将不会被转换为 html 格式。这是输出:

<?xml version="1.0" encoding="UTF-8"?>
<top>
  <title id="1">&amp;lt;a href=&amp;quot;google.com/maps&amp;quot;&amp;gt;Go to google maps&amp;lt;/a&amp;gt; and some special characters &amp;euml; &amp;egrave; &amp;amp; &amp;auml; etc.</title>
</top>

html 标记的 & 符号得到一个双 html 代码:&amp;lt;并且 & 符号变为:&amp;amp;

这是正常行为吗?或者我怎样才能防止这种情况发生?看起来像双重编码。

4

3 回答 3

3

尝试删除该行:

$string = htmlentities($string, ENT_QUOTES, 'UTF-8');

因为传递给 createTextNode() 的文本无论如何都会被转义。

更新:如果您希望转义 utf-8 字符。您可以离开该行并尝试直接在 createElement() 中添加 $string。

例如:

$title = $doc->createElement('title', $string);
$title = $root->appendChild($title);

在 PHP文档中,它说 $string 不会被转义。我没有尝试过,但它应该可以工作。

于 2012-09-08T12:25:57.960 回答
2

将 a转换为htmlentities处理 xml 数据时,您不应该使用 htmlentities,因为 DOMDocument 将处理 a而不是。&&amp;&&amp;

自 php 5.3 起,默认编码为 UTF-8,因此无需转换为 UTF-8。

于 2012-09-08T12:19:02.593 回答
2

这一行:

$string = htmlentities($string, ENT_QUOTES, 'UTF-8');

... 将字符串编码为 HTML。

这一行:

$text = $doc->createTextNode($string);

... 将您的 HTML 字符串编码为 XML。

这为您提供了 HTML 字符串的 XML 表示。解析 XML 后,您将返回 HTML。

我怎样才能防止这种情况发生?

如果您的目标是在 XML 文档中存储一些文本。删除将其编码为 HTML 的行。

看起来像双重编码。

差不多。它被编码两次,它只是对两次传递中的每一次使用不同的(尽管非常相似)编码方法。

于 2012-09-08T12:51:41.447 回答