我有这个代码
<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">></a>
我想抓住a
元素并获得 href 。
如何将title
属性与Next Page
我想部分匹配a
元素标题属性中的文本。
页面上有很多a
类似的标签,唯一的区别是title
属性包含"Next Page
或文本是>
。
我有这个代码
<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">></a>
我想抓住a
元素并获得 href 。
如何将title
属性与Next Page
我想部分匹配a
元素标题属性中的文本。
页面上有很多a
类似的标签,唯一的区别是title
属性包含"Next Page
或文本是>
。
你必须使用正则表达式来完成你想要的。
首先将整个标记作为一个字符串并BeautifulSoup
用它创建一个对象。
然后使用对象的.findAll
方法BeautifulSoup
如下
import BeautifulSoup
import re
soup = BeautifulSoup('<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">></a>')
elements = soup.findAll('a', {'title':re.compile('Next Page.')})
# get all 'a' elements with 'title' attribute as 'Next Page something' into a list
for e in elements:
if str(e.string) == '>' or e.string == '>': # check if string inside 'a' tag is '>'
print e['href']