有没有人有解析 CEDICT 文件的示例代码?CEDICT是汉英词典。例如,目前,如果我在文本编辑器中打开它,CEDICT 文件中的一行如下所示:
‰∏ç ‰∏ç [bu4] /(否定前缀)/not/no/
我想将其视为:
不 不 [bu4] /(否定前缀)/not/no/
我发现 Textwrangler 作为文本编辑器为我做这件事。我现在需要的是实现相同的示例代码。
有没有人有解析 CEDICT 文件的示例代码?CEDICT是汉英词典。例如,目前,如果我在文本编辑器中打开它,CEDICT 文件中的一行如下所示:
‰∏ç ‰∏ç [bu4] /(否定前缀)/not/no/
我想将其视为:
不 不 [bu4] /(否定前缀)/not/no/
我发现 Textwrangler 作为文本编辑器为我做这件事。我现在需要的是实现相同的示例代码。
问题是,这只是一个编码问题。如果这条线看起来像
‰∏ç ‰∏ç [bu4] /(否定前缀)/not/no/
这是因为文本编辑器不知道/意识到文本被编码为 UTF-8。Text Wrangler,或者它的老大哥BBEdit,非常擅长猜测编码,甚至可以被要求以特定的编码显示文本。
由于我们不知道您最终想要实现什么,因此很难确切地告诉您必须做什么,特别是。我能说的是您的应用程序(您使用的是哪种语言?)需要支持 Unicode(并且能够读取/操作 UTF 字符串)。
我基于 CEDICT 编写了几个应用程序,一个用于 Mac OS X,一个用于 Android。解析和索引 CEDICT 并不难。
关于 CEDICT 的解析本身,这并不复杂。我不做Objective-C,从来没有,永远不会,但是任何语言的过程都是一样的:
您现在已将 CEDICT 转换为数据库。那是容易的部分。至于标记中文,祝你好运,伙计。比我更优秀的人仍在努力解决这个问题。