0

当我做文本分类时,如果文本很长,那么使用朴素贝叶斯分类可以获得非常令人满意的性能。

但是,当上下文涉及短文本时,例如 Twitter 消息或 Stackoverflow 中的问题内容,​​在几乎所有指标(例如准确率、召回率、ROC...

有没有一些实用的建议可以帮助我对这些短文本内容进行分类?

我会很高兴的。

4

1 回答 1

0

提高相关性变得更加困难,您需要考虑您的最终目标并从那里开始工作。但更接近的一种方法是添加额外的指标,在​​您的情况下,这将是消息长度、字典大小和文章上下文。

假设您更喜欢较长的文章而不是 twitter,那么长度指标会给文章带来更高的权重。

字典大小大部分时间与文章长度有关,但也与上下文密切相关。也就是说,一篇关于特定事物的文章在该上下文中将具有较高的度量,而不是同时讨论几件事的同一文章。

要构建上下文,您需要构建一个同义词词典,就像一棵树,它们之间有距离。示例:软件与电子相关的计算机相关,但软件与电子相关的松散。

为了提供一个解决方案,快速而肮脏的解决方案是权衡较短文章中的单词。

于 2012-04-24T10:34:57.943 回答