我正在编写一个使用CC-CEDICT的应用程序,CC-CEDICT是 CC 许可的中英词典。
该词典仅作为压缩文本文件 (4MB)提供,条目格式如下:
Traditional Simplified [pin1 yin1] /English equivalent 1/equivalent 2/
这是样本数据:
是 是 [shi4] /is/are/am/yes/to be/
昰 是 [shi4] /variant of 是[shi4]/used in given names/
時 时 [Shi2] /surname Shi/
時 时 [shi2] /o'clock/time/when/hour/season/period/
我特意选择了这些台词来说明我的问题。数据没有可以识别单个单词的可识别键。
英文的定义是可以改变的,而且随着词典的不断更新,但是假设在一次更新中 时 时 的两个定义发生了变化,所以下一个下载包含以下几行:
時 时 [Shi2] /last name Shi/
時 时 [shi2] /o'clock/time period/when/hour/season/
我如何知道哪些记录已更新?当翻译是一个完全改变的单词时,这一点非常明显。
我正在制定关于如何键入这本字典的策略。到目前为止,我最好的想法是将 (Simplified, Traditional) 作为键,并将重复项视为特殊情况 - 也许在他们自己的表中?