作为我的学术研究项目的一部分,我正在尝试构建一个应用程序,其中我将从网络检索到一组 url。任务是将这些 url 中的每一个分类到某个类别。
例如,以下 URL 与板球有关http://www.espncricinfo.com/icc_cricket_worldcup2011/content/current/story/499851.html 如果我将此特定 URL 提供给分类器,它应该将输出类别指定为“体育” .
为此,我正在使用 lingpipe 分类器。我已经按照分类教程运行了演示文件夹中的演示。我已经下载了从以下链接下载的 20 个新闻数据集。 http://people.csail.mit.edu/people/jrennie/20Newsgroups
后来,我将训练样本量从 20 减少到 8,并运行了分类演示。它可以成功地训练数据,也可以测试数据。
但问题是,每次我想测试文档的类别时,是否需要训练分类器?如果我对文档进行分类,训练和测试数据都需要 4 分钟。
我可以存储一次训练数据并执行多次分类吗?