我试图找到位于通过 H1 标签的图像。标记可以是在线杂志上的任何文章(示例)。这意味着我不能依赖特定的容器等。
我最初的想法是找到H1标签的字符位置并找到图像。这将让我确定他们相对于 H1 标签的位置。除非我遗漏了一些东西,否则我找不到用美丽的汤来获取已找到元素的字符位置的方法。
无论必须使用什么方法来解析 html,它都必须使用格式错误的语法。
例子:
<html>
<p>some text</p>
<img src="#" alt="I don't care about this image"/>
<h1>This is the title</h1>
<img src="#" alt="This is the first image I want to get"/>
<p>some more content</p>
<img src="#" alt="This is the secod image I want to get"/>
</html>
解析以上 html 将返回一个列表,其中包含位于 H1 标记下方的 2 个图像。
更新:我完全重写了我的问题以更好地解释问题。