当我做文本分类时,如果文本很长,那么使用朴素贝叶斯分类可以获得非常令人满意的性能。
但是,当上下文涉及短文本时,例如 Twitter 消息或 Stackoverflow 中的问题内容,在几乎所有指标(例如准确率、召回率、ROC...
有没有一些实用的建议可以帮助我对这些短文本内容进行分类?
我会很高兴的。
当我做文本分类时,如果文本很长,那么使用朴素贝叶斯分类可以获得非常令人满意的性能。
但是,当上下文涉及短文本时,例如 Twitter 消息或 Stackoverflow 中的问题内容,在几乎所有指标(例如准确率、召回率、ROC...
有没有一些实用的建议可以帮助我对这些短文本内容进行分类?
我会很高兴的。
提高相关性变得更加困难,您需要考虑您的最终目标并从那里开始工作。但更接近的一种方法是添加额外的指标,在您的情况下,这将是消息长度、字典大小和文章上下文。
假设您更喜欢较长的文章而不是 twitter,那么长度指标会给文章带来更高的权重。
字典大小大部分时间与文章长度有关,但也与上下文密切相关。也就是说,一篇关于特定事物的文章在该上下文中将具有较高的度量,而不是同时讨论几件事的同一文章。
要构建上下文,您需要构建一个同义词词典,就像一棵树,它们之间有距离。示例:软件与电子相关的计算机相关,但软件与电子相关的松散。
为了提供一个解决方案,快速而肮脏的解决方案是权衡较短文章中的单词。