java - 可以使用 xpath 获取 html 锚标记的值吗？

Question

如果我的 HTML 看起来像：

<td class="blah">&nbs;<a href="http://.....">????</a>&nbsp;</td>

我能得到吗？？？？使用 xpath 的价值？它会是什么样子？

score 1 · Accepted Answer

要使用 XPath，您通常需要 XML 而不是 HTML，但是一些解析器（例如 PHP 中内置的解析器）有一个轻松的模式，它也可以解析大多数 HTML。
如果您想找到所有XPath<a>的直接子项，您需要的是<td class="blah">

//td[@class = 'blah']/a
or
//td[@class = 'blah']/a[@href = 'http://...']

（取决于您是否只想要一个 url 或所有 url）
这将为您提供一组节点。您需要遍历它，然后检查（假定为文本节点）和子节点的数量（假定为 1）nodeType。firstChild然后firstChild将包含 ????

score 0 · Accepted Answer

为什么要使用 XML 解析器来解析 HTML？我建议使用专用的 Java HTML 解析器，有很多，但我自己没有尝试过。

至于你的问题，它会起作用吗，我怀疑它不起作用，&nbs;如果不是更早，你会在尝试将其解析为 HTML 时遇到错误。

2 回答 2