1

在写入数据库之前,我正在获取一个 XML 文件并将其读入各种字符串,但是我在使用德语字符时遇到了困难。

XML 文件开始

<?xml version="1.0" encoding="UTF-8"?>

然后我遇到问题的一个例子就是这部分

<name><![CDATA[PONS Großwörterbuch Deutsch als Fremdsprache Android]]></name>

我的 PHP 有这个相关部分

$dom = new DOMDocument();
$domNode = $xmlReader->expand();
$element = $dom->appendChild($domNode);
$domString = utf8_encode($dom->saveXML($element));
$product = new SimpleXMLElement($domString);

//read in data
$arr = $product->attributes();
$link_ident = $arr["id"];
$link_id =  $platform . "" . $link_ident;
$link_name = $product->name;

所以 $link_name 变成 PONS Groörterbuch Deutsch als Fremdsprache Android

然后我做了一个

$link_name = utf8_decode($link_name);

当我在终端回显时效果很好

PONS GroÃwörterbuch Deutsch als Fremdsprache Android as is now 
PONS Großwörterbuch Deutsch als Fremdsprache Android after utf8decode 

但是,当它写入我的数据库时,它显示为:

PONS Kompaktwörterbuch Deutsch-Englisch (Android)

Mysql 中 link_name 的排序规则是 utf8_general_ci

我应该如何做到这一点才能将其正确写入我的数据库?

这是我用来写入数据库的代码

$link_name = utf8_decode($link_name);
$link_id = mysql_real_escape_string($link_id);
$link_name = mysql_real_escape_string($link_name);
$description = mysql_real_escape_string($description);
$metadesc = mysql_real_escape_string($metadesc);
$link_created = mysql_real_escape_string($link_created);
$link_modified = mysql_real_escape_string($link_modified);
$website = mysql_real_escape_string($website);
$cost = mysql_real_escape_string($cost);
$image_name = mysql_real_escape_string($image_name);
$query = "REPLACE into jos_mt_links
(link_id, link_name, alias, link_desc, user_id, link_published,link_approved, metadesc, link_created, link_modified, website, price)
VALUES ('$link_id','$link_name','$link_name','$description','63','1','1','$metadesc','$link_created','$link_modified','$website','$cost')";
echo $link_name . " has been inserted ";

当我从 shell 运行它时,我看到了

PONS Kompaktwörterbuch Deutsch-Englisch (Android) has been inserted
4

2 回答 2

1

在写入数据库之前,您必须使用 mb_convert_encoding 或 iconv 函数。

于 2010-06-25T15:06:43.137 回答
1

您从 XML 文件中获得了一个 UTF-8 字符串,并将其放入 UTF-8 数据库中。因此无需进行编码或解码,只需将原始字符串推入数据库即可。确保您mysql_set_charset('utf-8')首先告诉数据库有 UTF-8 字符串到来。

utf8_decode并被utf8_encode误导性地命名。它们用于在 UTF-8 和 ISO-8859-1 编码之间进行转换。转换为 ISO-8859-1 的调用utf8_decode自然会丢失您拥有的任何不适合该编码的字符。通常应该避免使用这些功能,除非有特定的地方需要使用 8859-1。

当您回显一个明确的字符串时,您不应考虑终端显示的内容。终端有自己的编码问题,尤其是在 Windows 下,可能无法正确输出每个字符。在西方 Windows 上安装系统代码页(终端将使用它将 PHP 吐出的字节转换为字符以显示在屏幕上)将是代码页 1252,与 ISO-8859-1 相似但不同. 这就是为什么utf8_decode吐出 ISO-8859-1 似乎使文本按预期显示的原因。但这用处不大。在内部,您应该对所有字符串使用 UTF-8。

于 2010-06-25T15:28:25.577 回答