0

我现在正在做一个项目,试图扩展LIWC 词典以适应我们的当地语言(混合英语、印度尼西亚语、马来语和汉语)。我们使用词嵌入模型在 LIWC 词典中找到与单词相似的词,然后根据新词典计算分数。

LIWC 字典的原始输出如下所示:

[53.2, 11.2,..., 85.01]

表示属于每个类别的词的比例,类别包括:

['Function', 'Pronoun', 'Ppron', 'I', 'We', 'You', ... ,'Netspeak', 'Assent', 'Nonflu', 'Filler']

在扩展 LIWC 字典后,我想测试我们是否有与原始 LIWC 相似的输出。但是扩展字典中的单词后,每个类别的比例肯定会增加。因此,与其直接比较两个分数,我认为如果我们比较变量之间的关系会更有意义。

更准确地说,假设我有原始输出 dist1,

[d1v1, d1v2, ..., d1vp]

以及我们扩展字典 dict2 的输出,

[d2v1, d2v2, ..., d2vp] 

其中 p 代表类别的数量。是否存在可以帮助我证明 dist1 中变量之间的关系与 dist2 中的关系是否相似的测试?

4

0 回答 0