0

我正在使用 HTMLXPathSelector 来解析 HTML 内容。并且目标网站有一个随机的 HTML 标签。例如:它的格式可能是:

<div class="doctor_ans">
  <h3>Title</h3>
  <p style="text-align: justify;">
    <span style="font-size: 12px;">
      <span style="font-family: arial,helvetica,sans-serif;">
        <font color="#000000">I would like to get contain here.</font>
      </span>
    </span>
  </p>    
</div>

或者

<div class="doctor_ans">
  <h3>Title</h3>
  <p style="text-align: justify;">
    <span style="font-size: 12px;">
      <span style="font-family: arial,helvetica,sans-serif;">
        I would like to get contain here.>
      </span>
    </span>
  </p>    
</div>

或者

<div class="doctor_ans">
  <h3>Title</h3>
  <p>
    <span style="font-size: 12px;">
      <span style="font-family: arial,helvetica,sans-serif;">
        <font color="#000000">I would like to get contain here.</font>
      </span>
    </span>
  </p>    
</div>

或者

<div class="doctor_ans">
  <h3>Title</h3>
  <p>
    <span style="font-size: 12px;">
        I would like to get contain here.
    </span>
  </p>    
</div>

等等。
请给我你的建议如何解析这个内容。HTML 标记随机出现。所以,我需要一种方法来获取子元素以找到最终元素。

4

2 回答 2

1
hxs = HtmlXPathSelector(response)
hxs.select('div[@class="doctor_ans"]/p[1]//text()').extract()

doctor_ans将为您提供div第一段中每个单独文本的列表。

于 2012-08-23T20:54:30.783 回答
0

我有更多使用 Selenium 的经验,但 xpath 部分应该是相同的。使用 xpath='.//span' 选择子元素,然后获取该元素的 .text。如果子元素为空,则丢弃,移动到下一个元素。

于 2012-08-23T19:34:43.470 回答