对于我的项目,我有一个单词数据集(例如狗、跑、猫),每个单词都用词性标记(例如动词、名词、形容词)。我需要创建一个数据结构来存储每个单词将成为某个词性的总数。我目前正在使用一个 3d 数组,其中一个单词是每个数组中的第一个元素,然后是词性,然后是每个相应的 pos 之后的实例总数。下面是一个例子。
emissiontable = [[Fight, [Verb, 100], [Noun, 120]], [Run,[Verb,100],[Noun,120]]]
这似乎很乏味,可能有更好的方法来做到这一点。特别是因为我必须将每个总数转换为概率(x 单词是 x 词性的概率)。这也称为发射概率表。有没有更好的数据结构呢?