1

我已经学会了如何创建一个 HTTP Get 请求方法来从 URL 中检索数据,但我想过滤响应以只给我网页上的链接列表。

例如,如果 HTML 包含以下文本:

<link href="http://www.thompsons.co.uk">

那么它应该打印出来:

http://www.thompsons.co.uk

4

3 回答 3

1

我强烈建议您不要使用正则表达式来“解析”HTML。除非您可以控制正在处理的网页的格式,否则基于正则表达式的解决方案可能会变得脆弱和有缺陷。

相反,请使用许可的 HTML 解析器。这个问题提供了许多替代方案: HTML/XML Parser for Java

于 2012-09-06T12:24:03.127 回答
0

您完全读取整个数据,然后使用正则表达式对其进行解析以提取链接。在这里阅读更多:http ://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/

于 2012-09-06T12:18:45.007 回答
0

您可以使用 jsoup:

http://jsoup.org/cookbook/extracting-data/attributes-text-html

于 2012-09-06T12:55:19.000 回答