我正在尝试抓取包含希伯来语文本的页面。它包含以下 HTML:
<div id="AgeRating">דירוג גיל: 12+</div>
我只想要 12+ 部分(事实上:我只想要 '12' 部分)。我目前正在使用其他语言的这条正则表达式:
new Regex(@"<div id=""AgeRating"">.*(\d{1,2})\+</div>", RegexOptions.Compiled);
但我就是无法让这个匹配。我尝试了所有的正则表达式选项,如 RightToLeft、CultureInvariant、SingleLine、MultiLine 等,但没有任何效果。不过,它确实适用于许多其他语言。
注意:我知道 HtmlAgilityPack 可以正确解析 HTML。这是关于为什么看似正确的 RegEx 无法匹配特定字符串的问题(因为这是我目前拥有的示例)。