我刚刚实现了一个在 Java 中使用斯坦福 POS 标记器的程序。
我使用了一个几 KB 大小的输入文件,由几百个单词组成。我什至将堆大小设置为 600 MB。
但它仍然很慢,有时会耗尽堆内存。如何提高其执行速度和内存性能?我希望能够使用几 MB 作为输入。
  public static void postag(String args) throws ClassNotFoundException
  {
     try
     {
     File filein=new File("c://input.txt");
     String content = FileUtils.readFileToString(filein);
     MaxentTagger tagger = new MaxentTagger("postagging/wsj-0-18-bidirectional-distsim.tagger");
     String tagged = tagger.tagString(content);
        try 
        {
            File file = new File("c://output.txt");
            if (!file.exists()) 
            {
                file.createNewFile();
            } 
            FileWriter fw = new FileWriter(file.getAbsoluteFile());
            BufferedWriter bw = new BufferedWriter(fw);
            bw.write("\n"+tagged);
            bw.close();
            }
              catch (IOException e) 
              {
                    e.printStackTrace();
               }
     } catch (IOException e1)
     {
         e1.printStackTrace();
     }
 }