我正在研究博客作者的性别分类。我正在使用 Weka 进行分类。分类器是 SVM 和朴素贝叶斯分类器,但我的准确率在 50% 到 60% 之间,现在我怀疑我的特征集。我正在使用的功能是 POSTtags、以 ale、ably 等结尾的词、博客词、词干等。我正在参考这篇论文
有谁知道更好的功能集是什么?
我正在研究博客作者的性别分类。我正在使用 Weka 进行分类。分类器是 SVM 和朴素贝叶斯分类器,但我的准确率在 50% 到 60% 之间,现在我怀疑我的特征集。我正在使用的功能是 POSTtags、以 ale、ably 等结尾的词、博客词、词干等。我正在参考这篇论文
有谁知道更好的功能集是什么?
作为一个开放的研究问题,我强烈建议您查看“关于揭露剽窃、作者身份和社交软件滥用的评估实验室”、PAN 系列中使用的特征集,其中包含关于作者分析主题的数据集和许多论文:年龄和性别。
您可以找到2013 年运行中使用的数据集,以及几个研究小组使用的方法的描述。
很久以前研究过同样的问题,我可以得出这样的结论,即复制论文的结果有点令人厌烦。通过他们的变长 POS 挖掘算法获得的 20,000(大约)个 POS 序列相当不整齐,并且是不可重复性背后的主要因素。此外,考虑到他们数据集的大小(约 3,000 篇博客文章),88% 的准确率听起来很违反直觉。
也许,一些更大的语料库(例如,博客作者语料库)可以帮助阐明特征的泛化能力。