我正在实现一个网络机器人,它必须从页面中获取所有链接并选择所需的链接。除了遇到链接位于“表”或“跨度”标签内的问题外,我一切正常。这是我的代码片段:
Document doc = Jsoup.connect(url)
.timeout(TIMEOUT * 1000)
.get();
Elements elts = doc.getElementsByTag("a");
这是示例 HTML:
<table>
<tr><td><a href="www.example.com"></a></td></tr>
</table>
我的代码不会获取此类链接。使用 doc.select 也无济于事。我的问题是,如何从页面中获取所有链接?
编辑:我想我知道问题出在哪里。我遇到问题的页面写得很糟糕,HTML 验证器会抛出大量错误。这会导致问题吗?