unicode - CEDICT 的示例解析器代码

Question

有没有人有解析 CEDICT 文件的示例代码？CEDICT是汉英词典。例如，目前，如果我在文本编辑器中打开它，CEDICT 文件中的一行如下所示：

‰∏ç ‰∏ç [bu4] /(否定前缀)/not/no/

我想将其视为：

不不 [bu4] /(否定前缀)/not/no/

我发现 Textwrangler 作为文本编辑器为我做这件事。我现在需要的是实现相同的示例代码。

score 2 · Accepted Answer

问题是，这只是一个编码问题。如果这条线看起来像

‰∏ç ‰∏ç [bu4] /(否定前缀)/not/no/

这是因为文本编辑器不知道/意识到文本被编码为 UTF-8。Text Wrangler，或者它的老大哥BBEdit，非常擅长猜测编码，甚至可以被要求以特定的编码显示文本。

由于我们不知道您最终想要实现什么，因此很难确切地告诉您必须做什么，特别是。我能说的是您的应用程序（您使用的是哪种语言？）需要支持 Unicode（并且能够读取/操作 UTF 字符串）。

我基于 CEDICT 编写了几个应用程序，一个用于 Mac OS X，一个用于 Android。解析和索引 CEDICT 并不难。

更新

关于 CEDICT 的解析本身，这并不复杂。我不做Objective-C，从来没有，永远不会，但是任何语言的过程都是一样的：

您现在已将 CEDICT 转换为数据库。那是容易的部分。至于标记中文，祝你好运，伙计。比我更优秀的人仍在努力解决这个问题。