3

我有黄金数据,我在其中注释了几个文件中的所有房间号。我想使用 openNLP 来训练一个使用这些数据并对房间号进行分类的模型。我被困在从哪里开始。我阅读了 openNLP maxent 文档,查看了 opennlp.tools 中的示例,现在查看了 opennlp.tools.ml.maxent - 这似乎是我应该使用的东西,但我仍然不知道如何使用。有人可以给我一些关于如何使用 openNLP maxent 以及从哪里开始的基本想法吗?任何帮助将不胜感激。

4

1 回答 1

4

这是一个演示 OpenNLP Maxent API 用法的最小工作示例。

它包括以下内容:

  • 从存储在文件中的数据训练 maxent 模型。
  • 将训练好的模型存储到文件中。
  • 从文件加载训练好的模型。
  • 使用模型进行分类。
  • 注意:结果是每个训练样本中的第一个元素
  • 注意:这些值可以是任意字符串,例如xyz=s0methIng

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.zip.GZIPInputStream;

import opennlp.maxent.GIS;
import opennlp.maxent.io.GISModelReader;
import opennlp.maxent.io.SuffixSensitiveGISModelWriter;
import opennlp.model.AbstractModel;
import opennlp.model.AbstractModelWriter;
import opennlp.model.DataIndexer;
import opennlp.model.DataReader;
import opennlp.model.FileEventStream;
import opennlp.model.MaxentModel;
import opennlp.model.OnePassDataIndexer;
import opennlp.model.PlainTextFileDataReader;

...

String trainingFileName = "training-file.txt";
String modelFileName = "trained-model.maxent.gz";

// Training a model from data stored in a file.
// The training file contains one training sample per line.
// Outcome (result) is the first element on each line.
// Example:
// result=1 a=1 b=1
// result=0 a=0 b=1
// ...
DataIndexer indexer = new OnePassDataIndexer( new FileEventStream(trainingFileName)); 
MaxentModel trainedMaxentModel = GIS.trainModel(100, indexer); // 100 iterations

// Storing the trained model into a file for later use (gzipped)
File outFile = new File(modelFileName);
AbstractModelWriter writer = new SuffixSensitiveGISModelWriter((AbstractModel) trainedMaxentModel, outFile);
writer.persist();

// Loading the gzipped model from a file
FileInputStream inputStream = new FileInputStream(modelFileName);
InputStream decodedInputStream = new GZIPInputStream(inputStream);
DataReader modelReader = new PlainTextFileDataReader(decodedInputStream);
MaxentModel loadedMaxentModel = new GISModelReader(modelReader).getModel();

// Now predicting the outcome using the loaded model
String[] context = {"a=1", "b=0"};
double[] outcomeProbs = loadedMaxentModel.eval(context);
String outcome = loadedMaxentModel.getBestOutcome(outcomeProbs);
于 2014-11-05T12:51:14.567 回答