1

我有以下要阅读的 xml:

  1. 中文 xml - https://news.google.com/news/popular?ned=cn&topic=po&output=rss
  2. 韩语 xml - http://www.voanews.com/templates/Articles.rss?sectionPath=/korean/news

目前,我尝试使用 luaxml 来解析包含中文字符的 xml。但是,当我使用控制台打印出来时,结果是无法正确打印汉字并显示为乱码。

我想问一下是否有将中文或韩文字符解析为lua表的方法?

4

2 回答 2

0

我不认为 Lua 是这里的问题。远程站点发送的原始数据是使用 UTF-8 编码的,Lua 对此没有特殊的解释——这意味着如果您只是 (1) 从远程站点读取数据,并且 (2) 保存读取的数据,它应该被完美地保存到一个文件。文件中的数据将包含以 UTF-8 编码的 CJK 字符,就像发送回的远程站点一样。

如果你得到了你提到的有趣的结果,那么问题可能在于你用来从远程站点读取的库,或者可能只是你的控制台在输出到它时显示结果的方式。

于 2012-05-09T04:11:52.140 回答
0

我设法将“ä¸ç¾Ž”转换为汉字。我需要做一个额外的步骤,必须使用此链接中的此方法转换所有字符串系列, http: //forum.luahub.com/index.php?topic=3617.msg8595#msg8595然后保存到xml 格式。

string.gsub(l,"&#([0-9]+);", function(c) return string.char(tonumber(c)) end)

我想问LuaXML,我遇到过xml.registerCode(decoded,encoded)这个方法

在这种方法下,它说

registers a custom code for the conversion between non-standard characters and XML character entities

非标准字符是什么意思,我该如何使用它?

于 2012-05-09T12:06:10.620 回答