4

我想针对以下情况训练和使用贝叶斯分类器:

  • 半结构化数据 - 基本上是 XML 模式
  • 信息包含在多个纯文本字段中
  • 架构的某些字段/部分可能会重复任意次数

分类本身相当简单——基本上我需要文档属于特定类别的概率。

设计约束:

  • 解决方案必须是开源的,或者在另一个免版税许可下可用
  • 必须可以保存/加载分类器以供将来使用
  • 必须可以将这个库嵌入到更大的基于 Java 的应用程序中(即必须在 Java/JVM 库中工作)

是否有适合此要求的库/工具?

4

1 回答 1

1

我不确定您是否已经准备好分类器,但我已经在几个抽屉项目中使用了 Apache 的UIMA框架。UIMA“只是”一个框架,但确实带有一些逻辑。一些重型谷歌搜索提出了一个使用 UIMA 的示例贝叶斯分类器

它具有在运行时修改配置的机制,但我也有点不清楚您所说的“保存和加载分类器”是什么意思。这是否意味着您有一组二进制分类器要在运行时加载(和卸载),或者您是否有不同的模型要加载/卸载?

您的其他问题的答案是:

  • 是的,UIMA 是开源的,在 ASLv2 下发布
  • 是的,您可以将 UIMA 作为库嵌入到您的应用程序中。
于 2012-09-12T20:28:12.463 回答