根据一个项目,我一直在使用 Python NLTK 和文档分类以及朴素贝叶斯分类器。正如我从文档中了解到的那样,如果您的不同文档被标记为 pos 或 neg 作为标签(或超过 2 个标签),这将非常有效
我正在处理的已经分类的文档没有标签,但它们有一个分数,一个介于 0 到 5 之间的浮点数。
我想做的是构建一个分类器,就像文档中的电影示例一样,但这会预测一段文本的分数,而不是标签。我相信这在文档中有所提及,但从未进一步探索为“数字特征的概率”
我不是语言专家也不是统计学家,所以如果有人有这样的例子,如果你能与我分享,我将不胜感激。谢谢!