0

我有大约 300 名参与者,他们每人生成了 45 个简短的情景(尽管许多参与者写了相同的情景),并评估了他们在这种情况下感到焦虑的程度(1-5 李克特量表)。

样本数据:

train = [('being at a sports game', '1'), ('selecting group members for a group project', '2'), ('interacting with overly dressed people', '1'), ('partnering up with a stranger for a class', '3'), ('having your presentation criticized by an audience member', '4'), ('being in a situation you cannot control', '3')]

我想知道我是否可以在 python 中使用 textblob 来确定是否有任何常用词会导致某人在这个单项李克特量表上得分更高。

到目前为止,我所拥有的是简单的类别分类系统。

#Import libraries
from textblob.classifiers import NaiveBayesClassifier

#Train the NBC with training data
cl = NaiveBayesClassifier(train)

#Examine Training Accuracy
cl.accuracy(train)

#Generates a list of informative features
cl.show_informative_features(50)
  1. 我怎么能考虑到这是区间(或者有人会说是序数)数据而不是名义数据?(例如,包含“陌生人”这个词会导致焦虑增加 X%。)

  2. 如果这是不可能的(或者即使不是),有没有办法打印给定情况在每个 likert 类别中被标记的百分比概率?(例如,1 = 0.08;2 = 0.23、3 = 0.44、4 = 0.19、5 = 0.06)

任何建议将不胜感激。

4

0 回答 0