8

想知道终止长时间运行的正则表达式匹配的技术(java matcher.find() 方法)。也许继承 Matcher 并添加一些逻辑以在 x 次迭代后终止?

基本上我是使用遗传算法生成正则表达式,所以我对它们没有太多控制权。然后我根据一些文本对每个文本进行测试,看看它们是否与文本的某个目标区域匹配。

因此,由于我是在随机生成这些正则表达式,所以会发生一些疯狂的事情,它会消耗大量的 cpu,并且一些 find() 调用需要一段时间才能终止。我宁愿在一段时间后杀死他们,但不确定最好的方法。

所以如果有人有想法,请告诉我。

4

6 回答 6

3

这里有一个解决方案可以解决您的问题。(这个问题和你的问题一样。)

本质上,它是一个可以注意到线程中断的 CharSequence。

该答案的代码:

/**
 * CharSequence that noticed thread interrupts -- as might be necessary 
 * to recover from a loose regex on unexpected challenging input. 
 * 
 * @author gojomo
 */
public class InterruptibleCharSequence implements CharSequence {
    CharSequence inner;
    // public long counter = 0; 

    public InterruptibleCharSequence(CharSequence inner) {
        super();
        this.inner = inner;
    }

    public char charAt(int index) {
        if (Thread.interrupted()) { // clears flag if set
            throw new RuntimeException(new InterruptedException());
        }
        // counter++;
        return inner.charAt(index);
    }

    public int length() {
        return inner.length();
    }

    public CharSequence subSequence(int start, int end) {
        return new InterruptibleCharSequence(inner.subSequence(start, end));
    }

    @Override
    public String toString() {
        return inner.toString();
    }
}

用这个包裹你的字符串,你可以中断线程。

于 2011-08-19T19:49:33.223 回答
1

最坏的情况,可能会让人们对我大喊大叫的是:

您可以在另一个线程中运行正则表达式匹配,如果它运行时间过长,您可以thread.stop()

于 2011-08-19T18:28:47.397 回答
1

只是显示另一个解决方案。

您可以使用对输入不敏感且比Java标准库快数百倍的NFA算法。

我认为对输入的敏感性是导致您出现问题的最初原因。

您可以在此处查看介绍:正则表达式匹配可以简单快速(但在 Java、Perl、PHP、Python、Ruby 中很慢...)

我还在这里更详细地回答了类似的问题:取消长时间运行的正则表达式匹配?

于 2016-02-15T09:48:10.947 回答
0

一种可能的解决方案是在单独的线程中产生“匹配”,它有一个好处是它不会阻塞主线程。您可以创建一个自定义Callable,它在持续时间/阈值到期后返回null,或者如果成功则返回“匹配”结果。

于 2011-08-19T18:27:54.190 回答
0

您需要使用另一个线程并在它用完时停止它。

有两种停止方式:Thread#stop() 和 Thread#interrupt()。

使用 Thread.stop() 相当危险,而且 Matcher 不会响应 Thread.interrupt(响应中断是一种选择加入行为)。

但是有一个非常聪明的解决方案,这里有一些细节。使用提供的 InterruptibleCharSequence (它包装你的字符串并且几乎像一个一样工作,但它增加了对 Thread#interrupt() 的支持),然后构建你自己的 Callable 返回任何匹配器返回。现在可以使用 FutureTask / ThreadPool 组合来执行每个可运行对象,并且您可以使用所需的任何超时来获得结果:

Boolean result = myMatchingTask().get(2, TimeUnit.SECONDS)

如果您在 Java EE 环境中,您可以跳过复杂的部分,只需使用 InterruptipleCharSequence 和 @Asynchronous 调用。

如果这听起来很神秘,请询问详细信息。

于 2011-08-19T19:56:51.823 回答
-1

如果我是你,我会创建自己的类,放在我的应用程序和你用来匹配的库之间,并实现你需要杀死线程的“中断”等方法,并以这种方式管理匹配。

于 2011-08-19T19:39:38.770 回答