4

仅将 Twitter 用作示例并忽略他们拥有完美可用的 API 的事实,以下脚本从用户页面获取当前的第 5 条推文。

import urllib2
from lxml import etree

xpathselector = "/html/body/div/div[2]/div/div[5]/div[2]/div/ol/li[5]/div/div/p"
url =  "https://twitter.com/bmthofficial"
response = urllib2.urlopen(url)
htmlparser = etree.HTMLParser()
tree = etree.parse(response, htmlparser)
result = tree.xpath(xpathselector)

print result[0].text

在发布这篇文章时,它打印:

下午 2.30 起,赢取阅读节门票,并介绍

现在,它打印出 < p > </ p > 的内容,例如,我将如何获取 P 的类名?它的 HTML 看起来像这样。

<p class="js-tweet-text tweet-text">From 2.30pm, win tickets to Reading Festival, and introduce <a dir="ltr" class="twitter-atreply pretty-link" href="/bmthofficial"><s>@</s><b>bmthofficial</b></a> onstage!</p>

任何帮助表示赞赏!谢谢!

4

1 回答 1

9

元素的使用get方法:

print result[0].get('class')

印刷

js-tweet-text tweet-text
于 2013-08-21T04:19:46.447 回答