这个 HTML:
<td height="79" valign="top" width="70">
<a href="http://e.livinghuntington.com/HS?a=stuff" target="_blank" title="Follow us on Twitter: http://twitter.com/#!/HuntingtonLive"> link link link <img alt="Follow us on Twitter: http://twitter.com/#!/HuntingtonLive" border="0" height="79" src="http://webe.emv3.com/livinghuntington/images/tt.png" style="display:block;" width="70"/></a>
</td>
</table>
<table>
这个代码:
public void handleStartTag(Tag tag, MutableAttributeSet attr, int pos) {
System.err.println("tag = " + tag);
给出这个输出:
tag = td
tag = a
tag = table
我尝试了各种测试策略:如果我嵌套一个链接(我什至不知道它是否是有效的 html),它会正确选择内部链接。如果我将图像从链接中拉出,它仍然不会拾取 img。据我所知,它根本不会提取图像标签。代码中是否存在错误或杂乱无章,或者这是 HTML 解析器的无法修复的问题(所以我需要放弃它并使用新的)?