statistics - 比较两个连续分布（LIWC 分数）时要进行哪个测试

翻译自：https://stackoverflow.com/questions/46538283 2017-10-03T06:21:49.297

32 次

我现在正在做一个项目，试图扩展LIWC 词典以适应我们的当地语言（混合英语、印度尼西亚语、马来语和汉语）。我们使用词嵌入模型在 LIWC 词典中找到与单词相似的词，然后根据新词典计算分数。

LIWC 字典的原始输出如下所示：

[53.2, 11.2,..., 85.01]

表示属于每个类别的词的比例，类别包括：

['Function', 'Pronoun', 'Ppron', 'I', 'We', 'You', ... ,'Netspeak', 'Assent', 'Nonflu', 'Filler']

在扩展 LIWC 字典后，我想测试我们是否有与原始 LIWC 相似的输出。但是扩展字典中的单词后，每个类别的比例肯定会增加。因此，与其直接比较两个分数，我认为如果我们比较变量之间的关系会更有意义。

更准确地说，假设我有原始输出 dist1，

[d1v1, d1v2, ..., d1vp]

以及我们扩展字典 dict2 的输出，

[d2v1, d2v2, ..., d2vp]

其中 p 代表类别的数量。是否存在可以帮助我证明 dist1 中变量之间的关系与 dist2 中的关系是否相似的测试？

0 回答 0