我通过使用正则表达式从 Twitter 的流中收集一堆问题,以挑选任何包含以问题类型开头的文本的推文:谁、什么、何时、何地等,并以问号结尾。
因此,我最终在我的数据库中收到了几个无用的问题,例如:“谁在乎?”、“这是什么?” 等等,还有一些有用的,比如:“篮球比赛多久打一次?”、“北极熊有多重?” ETC
但是,我只对有用的问题感兴趣。
我有大约 3000 个问题,其中约 2000 个没有用,其中约 1000 个有用,我手动标记了它们。我正在尝试使用朴素贝叶斯分类器(NLTK 附带)来尝试自动对问题进行分类,这样我就不必手动挑选有用的问题。
首先,我尝试选择问题的前三个单词作为特征,但这并没有太大帮助。在 100 个问题中,分类器预测只有大约 10%-15% 的问题对有用的问题是正确的。它也未能从它预测无用的问题中挑选出有用的问题。
我尝试了其他功能,例如:包括所有单词,包括问题的长度,但结果没有显着变化。
关于我应该如何选择功能或继续进行的任何建议?
谢谢。