4

作为我的学术研究项目的一部分,我正在尝试构建一个应用程序,其中我将从网络检索到一组 url。任务是将这些 url 中的每一个分类到某个类别。

例如,以下 URL 与板球有关http://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html 如果我将此特定 URL 提供给分类器,它应该将输出类别指定为“体育” .

为此,我正在使用 lingpipe 分类器。我已经按照分类教程运行了演示文件夹中的演示。我已经下载了从以下链接下载的 20 个新闻数据集。 http://people.csail.mit.edu/people/jrennie/20Newsgroups

后来,我将训练样本量从 20 减少到 8,并运行了分类演示。它可以成功地训练数据,也可以测试数据。

但问题是,每次我想测试文档的类别时,是否需要训练分类器?如果我对文档进行分类,训练和测试数据都需要 4 分钟。

我可以存储一次训练数据并执行多次分类吗?

4

1 回答 1

4

您需要将经过训练的模型序列化到磁盘,然后您可以反序列化它们并准备好分类器。

一旦你训练了一个分类器,就可以使用

 AbstractExternalizable.compileTo(classifier,modelFile);

将模型写入磁盘。

要阅读,您将需要

AbstractExternalizable.readObject(modelFile);

查看 Java 文档以获取AbstractExternalizable.

该模型将无法接受额外的训练事件,因为它已被编译。

于 2011-05-26T23:12:03.710 回答