我对数据挖掘和 WEKA 工具领域完全陌生(今天刚刚安装)。
我需要根据短文本句子进行主题识别。
假设我有几个类别: - 政治 - 体育 - 其他
我正在考虑执行以下操作:列出我将文本与之比较的术语列表:
- 运动的:
- 美国国家橄榄球联盟
- NBA
- 触地
- ETC
- 政治:
- 选举
- 总统
- 奥巴马
- ETC
另外,我想添加更多类别。
然后我会在 WEKA 的帮助下应用一些算法 SVM 或朴素贝叶斯。
关于如何使用 WEKA 开始执行此操作的任何想法?
我已经搜索了一些关于 WEKA 的教程,但我似乎找不到任何与我正在尝试做的类似的例子。
任何帮助我启动将不胜感激。