2

我正在尝试提取“”中包含 /thumb/ 的所有链接。其实我只需要使用图像src。我不知道图片是否会以 jpg 结尾,或者是否会有区分大小写的问题等。我真的只关心完整的链接。

m = Regex.Match(page, @"""(.+?/thumbs/.+?)""");
//...
var thumbUrl = m.Groups[1].Value;

我的完整代码

    var page = DownloadWebPage(url);
    var reg = new Regex(@"Elements\s+\((.*)\)", RegexOptions.Multiline);
    var m = reg.Match(page);
    var szEleCount= m.Groups[1].Value;
    int eleCount = int.Parse(szEleCount);

    m = Regex.Match(page, @"""(.+?/thumbs/.+?)""");
    while (m.Success)
    {
        var thumbUrl = m.Groups[1].Value;
        //i break here to see a problem
        m = m.NextMatch();
    }

thumbUrl 看起来像

center\"> ... 很多文字,没有 /thumbs/ ... src=\" http://images.fdhkdhfkd.com/thumbs/dfljdkl/22350.jpg

4

5 回答 5

4

非贪婪正则表达式可能会很慢,因为引擎必须进行大量回溯。

这个只使用贪婪的表达式:

@"""([^""]*/thumbs/[^""]*)"""

它不是匹配最少的任何东西,而是匹配尽可能多的非双引号。

于 2009-11-14T15:08:11.967 回答
3

如果您正在解析 (X)HTML,请考虑使用适当的解析器。

请参阅:在 C# 中解析 html 的最佳方法是什么?有关如何执行此操作的一些 C# 示例。

于 2009-11-14T15:10:58.573 回答
3

勉强(非贪婪)量词的工作方式是,一旦开始匹配,它就会一有机会就停止。您要做的是匹配符合您标准的最少文本数量,这不是一回事;您仍然必须确保它在您想要它之前不会开始匹配。正如其他人所建议的那样,您可以通过将.+?正则表达式中的 替换为与引号不匹配的内容来做到这一点,例如[^""]+.

但这仍然会给您带来性能问题。在您的示例中,正则表达式在看到center">;中的引号时开始匹配。当它到达报价时src="(假设您已将 更改.+?[^""]+),它将中止该匹配尝试继续前进。从引用开始的下一次尝试src="将成功。所以你现在得到了正确的结果,但你仍然在第一次失败的匹配尝试上浪费了很多时间。

编写快速正则表达式的关键是确保,如果匹配尝试失败,它会尽快失败。例如,我认为可以安全地假设您不想在"and之间使用任何尖括号/thumbs/,因此将它们添加到您不想匹配的字符集中:[^""<>]+。现在,任何从引用开始的匹配尝试center">都将在下一个位置中止。

您可以做其他事情来进一步优化正则表达式,包括原子组和负前瞻,但这可能会与您需要的一样快:

@"""([^""<>]+/thumbs/[^""<>]+)"""
于 2009-11-14T19:46:30.983 回答
1

问题是.+?也消耗“s,因此它继续匹配 src 属性之外。改用这个:

m = Regex.Match(page, @"""([^""]+/thumbs/[^""]+)""");
于 2009-11-14T15:07:03.277 回答
0

通常当你有正则表达式时,你使用静态字段并指定RegexOptions.Compiled选项:

static Regex template = new Regex(@"""(.+?/thumbs/.+?)""", RegexOptions.Compiled | RegexOptions.Multiline)
于 2009-11-14T15:44:32.470 回答