0

可能重复:
正则表达式与短语中的子词不匹配

我的程序显示匹配结果,但我想将结果排序为完全匹配(100%)、半匹配等等。我的文本文件包含以下行:

  1. 红车

  2. 红色的

所以如果我搜索:“红色汽车”。我得到以下结果

  1. 红车

  2. 红色的

所以我想要做的是将找到的结果排序如下:

  1. “红车”100%匹配

  2. “红色” 40% 匹配

  3. “汽车” 40% 匹配

任何帮助表示赞赏。

任何帮助表示赞赏。我的代码如下:

public static void main(String[] args) {
  // TODO code application logic here
  String strLine;
  try{
    // Open the file that is the first 
    // command line parameter   
    FileInputStream fstream = new FileInputStream("C:\\textfile.txt"");
    // Get the object of DataInputStream
    DataInputStream in = new DataInputStream(fstream);
    BufferedReader br = new BufferedReader(new InputStreamReader(in));

    Scanner input  = new Scanner (System.in);         
    System.out.print("Enter Your Search:  ");   // String key="red or yellow";
    String key = input.nextLine();

    while ((strLine = br.readLine()) != null) {     
      Pattern p = Pattern.compile(key); // regex pattern to search for
      Matcher m = p.matcher(strLine);  // src of text to search
      boolean b = false;
      while(b = m.find()) {                       
        System.out.println( " " + m.group()); // returns index and match
        // Print the content on the console
      }
    }
    //Close the input stream
    in.close();              
  }catch (Exception e){//Catch exception if any
    System.err.println("Error: " + e.getMessage());
  }
}  
4

1 回答 1

0

假设您正在搜索“Red”或“Yellow”,and or 是您需要的唯一逻辑运算符(没有“and”或“xor”),并且您不想在搜索中使用任何通配符或正则表达式对于,然后我会简单地循环遍历,尝试将每个字符串依次匹配该行。在伪代码中,类似于:

foreach (thisLine: allLinesInTheFile) {
    numOfCharsMatching = 0
    foreach (thisString: allSearchStrings) {
         if (thisLine.contains(thisString) {
               numOfCharsMatching = numOfCharsMatching + thisString.length
         }
    }
    score = ( numOfCharsMatching / thisLine.length ) * 100
}

如果您不希望空格计入您的分数,那么您需要将它们从 thisString.length 中删除(并且不允许它们出现在您的搜索词中)

另一个问题是,如果匹配可以重叠,numOfCharsMatching 将不正确(即,如果在“棕色行”中搜索“行”或“棕色”,则会说有 11 个字符匹配,比字符串的长度长。你可以使用 BitSet 来跟踪匹配中涉及的字符,例如:

foreach (thisLine: allLinesInTheFile) {
    whichCharsMatch = new BitSet()
    foreach (thisString: allSearchStrings) {
         if (thisLine.contains(thisString) {
               whichCharsMatch.set(startPositionOfMatch, endPositionOfMatch, true)
         }
    }
    score = ( numOfCharsMatching / thisLine.length ) * 100
}

查看 BitSet javadoc,尤其是 set 和 cardinality 方法

于 2012-11-07T18:13:44.053 回答