0

有没有人有解析 CEDICT 文件的示例代码?CEDICT是汉英词典。例如,目前,如果我在文本编辑器中打开它,CEDICT 文件中的一行如下所示:

‰∏ç ‰∏ç [bu4] /(否定前缀)/not/no/

我想将其视为:

不 不 [bu4] /(否定前缀)/not/no/

我发现 Textwrangler 作为文本编辑器为我做这件事。我现在需要的是实现相同的示例代码。

4

1 回答 1

2

问题是,这只是一个编码问题。如果这条线看起来像

‰∏ç ‰∏ç [bu4] /(否定前缀)/not/no/

这是因为文本编辑器不知道/意识到文本被编码为 UTF-8。Text Wrangler,或者它的老大哥BBEdit,非常擅长猜测编码,甚至可以被要求以特定的编码显示文本。

由于我们不知道您最终想要实现什么,因此很难确切地告诉您必须做什么,特别是。我能说的是您的应用程序(您使用的是哪种语言?)需要支持 Unicode(并且能够读取/操作 UTF 字符串)。

我基于 CEDICT 编写了几个应用程序,一个用于 Mac OS X,一个用于 Android。解析和索引 CEDICT 并不难。

更新

关于 CEDICT 的解析本身,这并不复杂。我不做Objective-C,从来没有,永远不会,但是任何语言的过程都是一样的:

  • 读一行。说你自己的例子: 不 不 [bu4] /(否定前缀)/not/no/
  • 你有四个领域:传统。Ch.,辛普。Ch.,阅读,含义。这些字段是空格分隔的。当然第四个字段可能包含空格,所以要小心。
  • 将 4 个字段存储(我使用了一个 sqlite 数据库)到数据库中。您可能想从定义字段中删除斜杠,将它们替换为其他内容。
  • 环形

您现在已将 CEDICT 转换为数据库。那是容易的部分。至于标记中文,祝你好运,伙计。比我更优秀的人仍在努力解决这个问题。

于 2012-07-15T15:00:45.237 回答