我一直在寻找一个正则表达式,它可以识别 HTML 页面内容中的引号字符串,但如果引号是 HTML 标记属性的一部分,则不会。
例子:
<p id="123">This is some "quoted text" in a <span class="test">sentence.</span></p>
在上面的行中,我想找到“引用文本”字符串,而不是 id="123" 或 class="test"。
我尝试了一些但没有工作。
下面的正则表达式提取上面示例中的 HTML 标记并排除句子内容......但我希望它做相反的事情:
<[^>]+>