2

我正在读取一个包含一个段落的 txt 文件,我正在解析这些单词并将它们插入到一个列表中;但是,我也在插入空格。不知何故,我的正则表达式似乎每次遇到逗号或点时都不起作用,因为它添加了一个空格......如果有人可以建议一个可以解决这个问题的正则表达式?谢谢

public class Exercise225 {

    public static void main(String... args) throws FileNotFoundException {
        String file = "words.txt";
        Scanner inFile = new Scanner(new File(file));
        String[] words = null;

        String line = "";
        List list = new ArrayList();

        while (inFile.hasNextLine()) {
            line = inFile.nextLine();
            words = line.split("[\n|\r|\t| |,|.|)|(|-|\"|!]");

            for (int i = 0; i < words.length; i++) {
                list.add(words[i].toLowerCase());                   
            }
        }
        Collections.sort(list);

        System.out.println(list.size());

        Iterator listItr = list.iterator();

        while (listItr.hasNext()) {
            System.out.println(listItr.next());
        }

        inFile.close();

    }    
}
4

3 回答 3

3

您可以使用量词在一个或多个分隔符上进行拆分,而不是仅在一个分隔符上进行拆分。+此外,您不需要在字符类中使用管道。

String regex = "[\n\r\t ,.)(\"!-]+";
words = line.split(regex);
于 2012-12-25T20:19:10.540 回答
0

用于\\s+正则表达式中用于拆分的空间。这将在拆分期间匹配一个或多个空格。

于 2012-12-25T20:19:14.417 回答
0

希望下面的更改能给您带来预期的结果

       String regEx = "[\n|\r|\t| |,|.|)|(|-|\"|!]";                
       line = inFile.nextLine().replaceAll(regEx+"^", "");          
       if(line.length()<=0)continue;                                
       words = line.split(regEx+"+");                            
于 2012-12-25T20:35:40.263 回答