0

我是一名 Java 初学者,我需要执行以下操作: - 我有一个 txt 文件作为输入,其中包含我想在 GATE 中分析的文本;- 我想让 GATE 自动启动并在此文本上运行其语言分析(语料库管道)。

我的想法是用Java打开并读取txt文件,然后将其转换为GATE doc,但我有以下疑问:

1) 如何将文本转换为 GATE 文档?

2) 如何让 GATE 自动启动?

谢谢你的协助。

4

1 回答 1

0

在 GATE 中,您不必担心读取和转换 .txt、.pdf、.html 等常见文件。GATE 会自动执行此操作。

像这样初始化 GATE:

private static void initGateApplication(String gateXgappFileLoc, String gateHome) {
        try {           
            try {
                if (Gate.getGateHome() == null)
                    Gate.setGateHome(new File(gateHome));
            } 
            catch (Exception ex) {
                ex.printStackTrace(System.out);
            }           
            try {
                if (!Gate.isInitialised())
                    Gate.init();
            } 
            catch (GateException e) {
                e.printStackTrace(System.out);
            }
            System.out.println("Initializing gate application...");
            gappFile = new File(gateXgappFileLoc);
            gateApplication = (CorpusController) PersistenceManager.loadObjectFromFile(gappFile);
        } 
        catch (Exception e) {
            e.printStackTrace(System.out);
        }
    }

并使用您的文本文件运行您的 GATE 管道:

public void extract(String inputFileName, String docID, CorpusController gateApplication) throws GateException, IOException 
{

      CorpusController application = gateApplication;

      Corpus corpus = Factory.newCorpus("Sample Corpus");
      application.setCorpus(corpus);

      File docFile = new File(inputFileName);
      System.out.print("Processing document " + docFile + "...");
      Document doc = Factory.newDocument(docFile.toURL(), encoding);

      // add document to the corpus
      corpus.add(doc);

      // run the application
      application.execute();
      System.out.println("Done running GATE pipeline...");
      // Now use get annotations from 'doc' object
}
于 2014-07-02T06:01:56.040 回答