我有一个 HTML 文件(我不能使用 HTML AgilityPack),我想提取一个 div 的 id(如果有的话)
<div id="div1">Street ___________________ </div>
<div id="div2">CAP |__|__|__|__|__| number ______ </div>
<div id="div3">City _____________________ State |__|__|</div>
<div id="div4">City2 ____________________ State2 _____</div>
我有一个提取下划线__的模式: [\ _]{3,}
现在,如果我的下划线前面有一个 div,我想提取它,如果没有,我只会得到下划线。
到目前为止,我已经建立了这种模式(<div id(.+?)>(\w)([\ _]{3,}/*))([\ _]{3,})
第一部分由 3 个组构成 1 - 一个 div 标签,2 - 一个标签,3 - 下划线
1 - <div id(.+?)>
, 2 - (\w)
, 3 -[\ _]{3,}/*
id 为 div2 的 div 不会使用 id,因为它包含非字母数字字符。
问:我的模式有什么问题?
4个div的所需匹配:
<div id="div1">Street ___________________
______
<div id="div3">City _____________________
<div id="div4">City2 ____________________
_____