我已经学会了如何创建一个 HTTP Get 请求方法来从 URL 中检索数据,但我想过滤响应以只给我网页上的链接列表。
例如,如果 HTML 包含以下文本:
<link href="http://www.thompsons.co.uk">
那么它应该打印出来:
我已经学会了如何创建一个 HTTP Get 请求方法来从 URL 中检索数据,但我想过滤响应以只给我网页上的链接列表。
例如,如果 HTML 包含以下文本:
<link href="http://www.thompsons.co.uk">
那么它应该打印出来:
我强烈建议您不要使用正则表达式来“解析”HTML。除非您可以控制正在处理的网页的格式,否则基于正则表达式的解决方案可能会变得脆弱和有缺陷。
相反,请使用许可的 HTML 解析器。这个问题提供了许多替代方案: HTML/XML Parser for Java
您完全读取整个数据,然后使用正则表达式对其进行解析以提取链接。在这里阅读更多:http ://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/