python - NLTK：使用数字分数而不是标签的文档分类

Question

根据一个项目，我一直在使用 Python NLTK 和文档分类以及朴素贝叶斯分类器。正如我从文档中了解到的那样，如果您的不同文档被标记为 pos 或 neg 作为标签（或超过 2 个标签），这将非常有效

我正在处理的已经分类的文档没有标签，但它们有一个分数，一个介于 0 到 5 之间的浮点数。

我想做的是构建一个分类器，就像文档中的电影示例一样，但这会预测一段文本的分数，而不是标签。我相信这在文档中有所提及，但从未进一步探索为“数字特征的概率”

我不是语言专家也不是统计学家，所以如果有人有这样的例子，如果你能与我分享，我将不胜感激。谢谢！

score 1 · Accepted Answer

What you're looking for is linear regression, and scikit-learn is much better than NLTK for this, see http://scikit-learn.org/stable/modules/linear_model.html

score 0 · Accepted Answer

这是一个非常晚的答案，但也许它会帮助某人。

你问的是回归。关于雅各布的回答，线性回归只是一种方法。不过，我同意他对 scikit-learn 的建议。

2 回答 2