2

我正在开展一个需要国际化支持的项目。我想从 UTF 支持开始,我想知道在 Erlang 中处理 UTF 的最佳实践是什么?

从我目前的研究来看,Erlang 对于某些用例的内置字符串处理似乎存在一些问题(JSON 解析就是一个很好的例子)。

我一直在看Starling,最近(在某处)读到它可能会作为 UTF“标准”被纳入标准 Erlang 版本。这是真的?我应该看看其他库或方法吗?

从评论:

EEP(Erlang Enhancement Proposal)10个细节在Erlang中表示Unicode字符

4

2 回答 2

5

这一页:

http://erlang.org/doc/highlights.html

...列出了 5.7/OTP R13A 版的亮点。注意这段:

1.2 Unicode 支持

如 EEP10 中所述实现对 Unicode 的支持。io 和 io_lib 模块支持从终端和文件格式化和读取 unicode 数据。文件可以在与不同 unicode 格式之间自动转换的模式下打开。模块 'unicode' 包含用于在外部和内部 unicode 格式之间转换的函数,并且 re 模块支持 unicode 数据。还有用于指定 ISO-latin-1 范围之外的字符串和字符数据的语言语法。

我不喜欢就什么是最佳实践发表声明,但我经常发现有一个最小的、完整的例子来开始概括是有帮助的。这是将 utf 放入 erlang 应用程序并将其再次发送到不同上下文的方法之一。假设您有一个 MySql 数据库,其中包含 utf8 字符的表中的行字段,这是一种将其作为 json 输出并通过管道传输到 Web 浏览器的方法:

hg clone http://bitbucket.org/justin/webmachine/ webmachine-read-only
cd webmachine-read-only
make
./scripts/new_webmachine.erl mywebdemo /tmp
svn checkout http://erlang-mysql-driver.googlecode.com/svn/trunk/ erlang-mysql-driver-read-only
cd erlang-mysql-driver-read-only/src
cp * /tmp/mywebdemo/src
svn checkout http://mochiweb.googlecode.com/svn/trunk/ mochiweb-read-only
cp mochiweb-read-only/src/mochijson2.erl /tmp/mywebdemo/src
cd /tmp/mywebdemo

编辑 src/mywebdemo_resource.erl 使其看起来像这样:

-module(mywebdemo_resource).
-export([init/1, to_html/2]). 

-include_lib("webmachine/include/webmachine.hrl").

init([]) -> {ok, undefined}.

to_html(ReqData, State) ->
    mysql:start_link(pool_id, "database.host.com", 3306, "db_user", "db_password", "db_name", fun(A, B, C, D) -> ouch end, utf8), %% add your connection string info
    {data, Res} = mysql:fetch(pool_id, "select * from table where IdWhatever = 13"),
    [[_, Utf8Str, _]] = mysql:get_result_rows(Res), %% pattern will need to be altered to match your table structure
    {mochijson2:encode({struct, [{Utf8Str, 100}]}), ReqData, State}.

构建所有内容并启动 url 调度程序:

make
./start.sh

然后在网页中执行以下命令(或者更方便的,比如 MozRepl):

var req = new XMLHttpRequest;
req.open('GET', "http://localhost:8000", false);
req.send(null);
eval("(" + req.responseText + ")");
于 2009-09-02T07:56:10.793 回答
0

正如之前的海报所提到的,最新版本的 erlang 原生支持 utf。如果你不能使用最新的,那么我通常做的一件事就是使用二进制文件来存储字符串数据。它可以防止 erlang 破坏列表中的字节。它还具有使字符串列表更易于处理的副作用。

于 2009-09-06T01:56:53.263 回答