我正在对用户的 UX 网站测试成绩单进行情绪分析。我从测试会话中得到成绩单,然后我分析成绩单以进行情绪分析——用户对网站的看法是什么,用户遇到了什么问题,他是否有任何问题、卡住、迷路。由于这是非常特定于域的,我正在测试 TextBlob 和 Vader,看看哪个能提供更好的结果。我的问题是在流程的开始 - 语音到文本 API 的成绩单并不完美。句子(句号)没有被捕获或者是最小的。我不确定分析应该在什么级别,因为我希望我可以在句子级别上进行分析. 我尝试制作 n-gram 并分析那些短文本块,但这并不理想,而且结果有点难以阅读——因为有些部分会重复。除此之外,我还进行经典的文本清理、标记化、pos 标记、词形还原并将其提供给 TextBlob 和 Vader。
成绩单示例:okay so if I go just back over here it has all the information I need it seems like which is great so I'm pretty impressed with it similar to how a lot of government websites are set up over here it looks like I have found all the information I need it's a great website it has everything overall though it had more than enough information...
我做了:
ngram_object = TextBlob(lines)
ngrams = ngram_object.ngrams(n=4)
这给了我类似的东西(实际上是一个 WordList):[okay so if I, so if I go, if I go just...]
然后结果如下所示:
62 little bit small -0.21875 Negative
61 like little bit -0.18750 Negative
0 information hard find not see -0.291666667 Negative
1 hard find not see information -0.291666667 Negative
有没有更好的方法来分析块中的非结构化文本而不是完整的成绩单?
这使得很难捕捉到网站的问题。更改 API 并不是一个真正的选择,因为我正在使用一些东西,这些东西是给我的,用作这个特定情绪分析问题的数据收集。
任何提示或建议将不胜感激,找不到任何人做类似的事情。