1

我想知道是否有任何用于文档分类的 NLP 技术。我想知道来自词性标记的 n-gram 统计数据是否有用?我似乎无法在有关该主题的文献中找到太多内容。

有没有人发现任何增强文档分类工作的 nlp 技术?如果您知道有关此主题的任何调查,那将是很棒的。

笔记。我看到了这个问题,但是我的语料库太大了,唯一的解决方案是不实用的。

4

1 回答 1

3

引用:

但是我的语料库太大了,唯一的解决方案是实用的。

主题建模!

文档分类目前在我们的研究小组和其他 NLP 小组中是一个非常热门的话题。我们的主要关注点是概率主题建模。主题模型是一系列算法,旨在发现大型文档档案中隐藏的主题结构以进行分类。令人兴奋的是,创新、发明和一般改进的空间很大。有很多东西可以研究,例如集成、混合和其他统计技术。

斯坦福自然语言处理小组有一个免费的开源工具,用于制作主题模型原型,称为斯坦福主题建模工具箱。我建议你检查一下。

一个起点(也许?)

于 2015-09-24T10:22:41.873 回答