java - 如何过滤 HTTP 获取响应？

Question

我已经学会了如何创建一个 HTTP Get 请求方法来从 URL 中检索数据，但我想过滤响应以只给我网页上的链接列表。

例如，如果 HTML 包含以下文本：

<link href="http://www.thompsons.co.uk">

那么它应该打印出来：

score 1 · Accepted Answer

我强烈建议您不要使用正则表达式来“解析”HTML。除非您可以控制正在处理的网页的格式，否则基于正则表达式的解决方案可能会变得脆弱和有缺陷。

相反，请使用许可的 HTML 解析器。这个问题提供了许多替代方案： HTML/XML Parser for Java

score 0 · Accepted Answer

您完全读取整个数据，然后使用正则表达式对其进行解析以提取链接。在这里阅读更多：http ://www.mkyong.com/regular-expressions/how-to-extract-html-links-with-regular-expression/

score 0 · Accepted Answer

0

您可以使用 jsoup：

于 2012-09-06T12:55:19.000 回答

3 回答 3