我现在正在做一个项目,试图扩展LIWC 词典以适应我们的当地语言(混合英语、印度尼西亚语、马来语和汉语)。我们使用词嵌入模型在 LIWC 词典中找到与单词相似的词,然后根据新词典计算分数。
LIWC 字典的原始输出如下所示:
[53.2, 11.2,..., 85.01]
表示属于每个类别的词的比例,类别包括:
['Function', 'Pronoun', 'Ppron', 'I', 'We', 'You', ... ,'Netspeak', 'Assent', 'Nonflu', 'Filler']
在扩展 LIWC 字典后,我想测试我们是否有与原始 LIWC 相似的输出。但是扩展字典中的单词后,每个类别的比例肯定会增加。因此,与其直接比较两个分数,我认为如果我们比较变量之间的关系会更有意义。
更准确地说,假设我有原始输出 dist1,
[d1v1, d1v2, ..., d1vp]
以及我们扩展字典 dict2 的输出,
[d2v1, d2v2, ..., d2vp]
其中 p 代表类别的数量。是否存在可以帮助我证明 dist1 中变量之间的关系与 dist2 中的关系是否相似的测试?