2

下面的代码读入一些文本(从 OCR 库中扫描)a 检查文本中是否有几个简单的单词“the”、“date”、“or”、“to”、“and”...。如果找到一个在这些单词中,此函数返回 true >>>,这意味着它刚刚扫描的页面以正确的方式转动。如果函数返回 false,则页面是颠倒的,它会移动到一个旋转页面的函数。

我只是想找出最好的方法来做到这一点。我不是正则表达式大师,但第一个 if 语句返回 true(因此它找到“日期”)。但是,即使我再次寻找“日期”,第二个 if 语句也会返回错误。

条件 OR||不能与正则表达式一起使用吗?

static Boolean CheckIfPDFisTurnedRightWay(List<tessnet2.Word> wordList)
        {
            if (wordList.Count >= 70)
            {
                var text = wordList.Select(w => w.Confidence >= 40 ? w.Text : "DONTMATCH").Aggregate((x, y) => x + " " + y);
                if (!Regex.IsMatch(text, @"date", RegexOptions.IgnoreCase))
                    return false;
                if (!Regex.IsMatch(text, @"[trf]h[ec]", RegexOptions.IgnoreCase) | !Regex.IsMatch(text, @"date", RegexOptions.IgnoreCase) || !Regex.IsMatch(text, @"[a0o][tfr]", RegexOptions.IgnoreCase) || !Regex.IsMatch(text, @"[ao]nd", RegexOptions.IgnoreCase) || !Regex.IsMatch(text, @"[frt][o0]", RegexOptions.IgnoreCase))
                    return false;                              
            }
                return true;           
        }
4

2 回答 2

2

IsMatch just returns a boolean, so you should be able to use ||.

You may have a typo. Check out the single pipe between your first two !Regex.IsMatch statements:

if (!Regex.IsMatch(text, @"[trf]h[ec]", RegexOptions.IgnoreCase)
    | !Regex.IsMatch(text, @"date", RegexOptions.IgnoreCase)
    || ...

Also, if you only want to return false if none of the expressions in the second if statement are a match, you probably want to use the && operator instead.

if ((text doesn't match 1st expression) and (text doesn't match 2nd expr) and ... )
    return false;
于 2013-07-31T22:06:36.883 回答
1

为了简化/提高可读性,您可以在单个正则表达式中评估不同的“或”表达式,如下所示:

if(!Regex.IsMatch(@"(date|[trf]h[ec]|[a0o][tfr])", RegexOptions.IgnoreCase)
于 2013-07-31T23:06:59.133 回答