是否有我可以阅读的研究论文/书可以告诉我手头的问题哪种特征选择算法最有效。
我试图简单地将 twitter 消息识别为 pos/neg(开始)。我从基于频率的特征选择开始(从 NLTK 书开始),但很快意识到对于类似的问题,不同的人选择了不同的算法
虽然我可以尝试基于频率、互信息、信息增益和各种其他算法,但列表似乎无穷无尽。我想知道是否有一种有效的方法,然后反复试验。
任何建议
是否有我可以阅读的研究论文/书可以告诉我手头的问题哪种特征选择算法最有效。
我试图简单地将 twitter 消息识别为 pos/neg(开始)。我从基于频率的特征选择开始(从 NLTK 书开始),但很快意识到对于类似的问题,不同的人选择了不同的算法
虽然我可以尝试基于频率、互信息、信息增益和各种其他算法,但列表似乎无穷无尽。我想知道是否有一种有效的方法,然后反复试验。
任何建议
你试过我在你最后一个问题上推荐的书吗?它可以在线免费获得,完全关于您正在处理的任务: Pang 和 Lee 的情绪分析和意见挖掘。第 4 章(“提取与分类”)正是您所需要的!
上学期我参加了 NLP 课程,很明显,情绪分析是没有人真正知道如何做好的事情(目前)。用无监督学习做到这一点当然更难。
有很多关于这方面的研究,其中一些是商业的,因此不向公众开放。我无法向您指出任何研究论文,但我们用于课程的书是这本(谷歌图书预览)。也就是说,这本书涵盖了很多材料,可能不是找到解决这个特定问题的最快方法。
我可以指出的唯一另一件事是尝试使用谷歌搜索,也许在scholar.google.com 中进行“情绪分析”或“意见挖掘”。
看看 NLTKmovie_reviews
语料库。评论已经被 pos/neg 分类,可能会帮助您训练分类器。尽管您在 Twitter 中找到的语言可能与那些语言非常不同。
最后一点,请在此处发布任何成功(或失败)。这个问题肯定会在某个时候出现。
不幸的是,在处理机器学习时没有任何灵丹妙药。它通常被称为“没有免费午餐”定理。基本上,许多算法都可以解决一个问题,有些算法在某些问题上做得更好,而在另一些问题上做得更差。总的来说,它们的表现都差不多。对于给定的数据集,相同的特征集可能会导致一种算法性能更好,而另一种算法性能更差。对于不同的数据集,情况可能会完全相反。
通常我所做的是挑选一些在类似任务中对其他人有用的特征选择算法,然后从这些算法开始。如果我使用我最喜欢的分类器获得的性能是可以接受的,那么再寻找半个百分点可能不值得我花时间。但是如果不能接受,那么是时候重新评估我的方法了,或者寻找更多的特征选择方法。