0

我正在对用户的 UX 网站测试成绩单进行情绪分析。我从测试会话中得到成绩单,然后我分析成绩单以进行情绪分析——用户对网站的看法是什么,用户遇到了什么问题,他是否有任何问题、卡住、迷路。由于这是非常特定于域的,我正在测试 TextBlob 和 Vader,看看哪个能提供更好的结果。我的问题是在流程的开始 - 语音到文本 API 的成绩单并不完美。句子(句号)没有被捕获或者是最小的我不确定分析应该在什么级别,因为我希望我可以在句子级别上进行分析. 我尝试制作 n-gram 并分析那些短文本块,但这并不理想,而且结果有点难以阅读——因为有些部分会重复。除此之外,我还进行经典的文本清理、标记化、pos 标记、词形还原并将其提供给 TextBlob 和 Vader。

成绩单示例:okay so if I go just back over here it has all the information I need it seems like which is great so I'm pretty impressed with it similar to how a lot of government websites are set up over here it looks like I have found all the information I need it's a great website it has everything overall though it had more than enough information...

我做了:

ngram_object = TextBlob(lines)
ngrams = ngram_object.ngrams(n=4) 

这给了我类似的东西(实际上是一个 WordList):[okay so if I, so if I go, if I go just...]

然后结果如下所示:

62  little bit small    -0.21875    Negative  
61  like little bit     -0.18750    Negative

0 information hard find not see -0.291666667    Negative
1 hard find not see information -0.291666667    Negative

有没有更好的方法来分析块中的非结构化文本而不是完整的成绩单?

这使得很难捕捉到网站的问题。更改 API 并不是一个真正的选择,因为我正在使用一些东西,这些东西是给我的,用作这个特定情绪分析问题的数据收集。

任何提示或建议将不胜感激,找不到任何人做类似的事情。

4

1 回答 1

0

我不确定你真正想要什么,但也许你可以看看语音情感分析?我读过 RAVDESS,一个对情绪分类有用的数据库。看看:https ://smartlaboratory.org/ravdess/

于 2021-11-08T10:55:23.820 回答