0

我尝试使用 lxml 和 xpath 命令从以下代码段访问时间(07.12.2012 00:36 Uhr)。不幸的是,想要的信息不是属性。我可以使用哪个 xpath 来访问它?

我的片段:

{'class': 'artikeldiskussion-titel'}
<div class="artikeldiskussion-titel"><span id="posting-649631-titel"><b>So</b></span>

    <span id="an_id" style="position: absolute; visibility: hidden; z-index: 999;"    class="hint_grau">

    </span> <span class="anz-postings-user" title="759 Kommentare">(759)</span> &#183;           07.12.2012 00:36 Uhr
</div>
4

2 回答 2

1

这是凌乱的html。

在没有看到更多样本的情况下,我会建议以下两种方法之一:

  1. 抓取 div 中的最后一个文本节点:/descendant::div[@class="artikeldiskussion-titel"]/child::text()[position()=last()]
  2. 在某个哨兵节点之后抓取文本节点:/descendant::span[@class="anz-postings-user"]/following-sibling::text()[1]
于 2012-12-07T15:17:48.373 回答
0

使用text()xpath 函数:

txt = tree.xpath('//path/to/span/text()')
于 2012-12-07T15:08:51.100 回答