我有一组文档及其相应的分数,这与 SO 上的赞成/反对票的数量非常相似。我想建立一个能够预测给定文档的分数的系统。一些用于回归的机器学习方法和用于从文档中获取有用特征的自然语言处理技术可能会有所帮助。
有没有针对此类问题的最新方法?我在 Google Scholar 上进行了一些搜索,但未能找到令人满意的结果。
谢谢。
我有一组文档及其相应的分数,这与 SO 上的赞成/反对票的数量非常相似。我想建立一个能够预测给定文档的分数的系统。一些用于回归的机器学习方法和用于从文档中获取有用特征的自然语言处理技术可能会有所帮助。
有没有针对此类问题的最新方法?我在 Google Scholar 上进行了一些搜索,但未能找到令人满意的结果。
谢谢。
预测答案的质量或有用性仍然非常困难。这些算法与其他机器学习问题没有什么不同:人们只是在使用标准的基于回归的技术。这真的要归结为大量的特征提取。例如,要预测 reddit 或 digg 等新闻聚合器上某个故事的投票数,您可能想查看帖子的主题是否与热门新闻故事有关。如果趋势结束,它可能不会获得很多选票。
您将必须创造性地了解哪些功能在您工作的领域中有用。您可以尝试诸如作者使用的语言的复杂性之类的事情。您可以通过每个句子的平均单词数、单词的平均长度,或者文档中的总单词数来衡量这一点。您可以尝试通过拼写检查器运行它:可能有很多拼写错误的文档会被否决。
在 Google Scholar 上有几个研究领域可供搜索:
最近在 kaggle.com 上也有几场关于这个主题的数据科学竞赛。用户论坛通常有关于他们如何处理这些事情的非常好的信息。这是一篇关于 自动论文评分的文章。