我有一个文本文件,我正在尝试使用词干分析器。
词干分析器会去除词的后缀。例如,在词干处理之后,“have had have”将是“have have have”。为了做到这一点,必须拆分字符串,因为词干分析器一次只能处理一个单词。拆分和词干提取后,输出如下所示:“havehavehave”。如何将其恢复为正确的格式?
englishStemmer english = new englishStemmer();
Scanner inputFile = new Scanner(file); //The text of file is "having have had" or something similar
String[] text = inputFile.nextLine(split("\\s"));
for (int i =0; i < text.length; i++){
english.setCurrent.text([i]);
english.stem();
System.out.print(english.getCurrent())
}