我想分析网络调查的答案(如果有兴趣,可以使用 Git User's Survey 2008 )。其中一些问题是自由形式的问题,例如“您是如何听说 Git 的?”。超过 3,000 条回复完全手动分析这些回复是不可能的(尤其是本次调查中有相当多的自由形式问题)。
我如何至少半自动地将这些回复(可能基于响应中使用的关键词)分组(即程序可以要求确认),然后如何将这些回复(每个类别中的条目数)表格化 -表格回复(答案)?一个答案可以属于多个类别,尽管为简单起见,可以假设类别是正交/互斥的。
我想知道的至少是要搜索的关键字,或者要使用的算法(一种方法)。我更喜欢Perl(或 C)中的解决方案。
可能的解决方案 1。(部分):贝叶斯分类
(添加于 2009-05-21)
我想到的一种解决方案是使用算法(及其背后的数学方法)进行贝叶斯垃圾邮件过滤,而不是一两个类别(“垃圾邮件”和“火腿”),会有更多;并且类别本身将自适应/交互地创建。