我有一个响应数据集,要求人们回答一组问题。只有一列文本数据需要处理。
我的挑战是;只有极少数的受访者真正写过长篇文章,我发现这些文章很容易处理并从中获得洞察力。大多数其他响应通常都很短,例如“有点”、“是”、“否”、“更大范围”。同样,也无法按顺序对其进行扩展,因为它没有逻辑顺序。
我已经能够使用较长的文本响应来获得对情感的洞察,提取关键字和短语并应用机器学习,例如 RAKE 和 PMI。我将 UDPIPE 库与 R 一起使用。
但是,对于较短的“几句话”回复,我发现很难从中获得洞察力。
对于我目前遇到的问题,是否还有其他机器学习技术?还是我需要尝试任何 NLP 技术?