我想针对以下情况训练和使用贝叶斯分类器:
- 半结构化数据 - 基本上是 XML 模式
- 信息包含在多个纯文本字段中
- 架构的某些字段/部分可能会重复任意次数
分类本身相当简单——基本上我需要文档属于特定类别的概率。
设计约束:
- 解决方案必须是开源的,或者在另一个免版税许可下可用
- 必须可以保存/加载分类器以供将来使用
- 必须可以将这个库嵌入到更大的基于 Java 的应用程序中(即必须在 Java/JVM 库中工作)
是否有适合此要求的库/工具?
我想针对以下情况训练和使用贝叶斯分类器:
分类本身相当简单——基本上我需要文档属于特定类别的概率。
设计约束:
是否有适合此要求的库/工具?
我不确定您是否已经准备好分类器,但我已经在几个抽屉项目中使用了 Apache 的UIMA框架。UIMA“只是”一个框架,但确实带有一些逻辑。一些重型谷歌搜索提出了一个使用 UIMA 的示例贝叶斯分类器。
它具有在运行时修改配置的机制,但我也有点不清楚您所说的“保存和加载分类器”是什么意思。这是否意味着您有一组二进制分类器要在运行时加载(和卸载),或者您是否有不同的模型要加载/卸载?
您的其他问题的答案是: