在以纯文本格式解析一堆 html 时,正则表达式是提取和检查所有锚标记的最佳方法,还是 .net 库中内置了任何东西?
问问题
368 次
RegEx 是你的好朋友。BCL 中没有内置 HTML 解析器。
如果您的输入符合 XHTML(或符合 XML),则可以使用 XML 和 XPath。将文档加载到 aXmlDocument
并选择所有a
节点。
正则表达式很好。但是,我发现HTML 敏捷包更宽容一些,这也是我在这种情况下会使用的。