我正在尝试构建一个模型,该模型将尝试识别所提供文本的兴趣类别/主题。例如:
“喜欢早点踢一场足球比赛。”
将解析为顶级类别,例如:
“运动”。
我不确定我在这里想要实现的正确术语是什么,所以谷歌没有找到任何可以提供帮助的库。考虑到这一点,我的方法是这样的:
- 从文本中提取特征。使用标记对每个特征进行分类/识别名称/地点。可能会为此使用 NTLK 或 Topia。
- 为每个兴趣类别(“体育”、“视频游戏”、“政治”等)运行朴素贝叶斯分类器,并获得每个类别的相关性百分比。
- 确定哪个类别的准确率最高,并对文本进行分类。
我的方法可能涉及为每个兴趣类别设置单独的语料库,我相信准确性会相当糟糕——我知道它永远不会那么准确。
通常寻找一些关于我想要完成的可行性的建议,但我的问题的症结在于:a)我的方法是否正确?b) 是否有任何图书馆/资源可以提供帮助?