1

我有这个代码

<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">&gt;</a>

我想抓住a元素并获得 href 。

如何将title属性与Next Page

我想部分匹配a元素标题属性中的文本。

页面上有很多a类似的标签,唯一的区别是title属性包含"Next Page或文本是>

4

1 回答 1

2

你必须使用正则表达式来完成你想要的。

首先将整个标记作为一个字符串并BeautifulSoup用它创建一个对象。

然后使用对象的.findAll方法BeautifulSoup如下

import BeautifulSoup
import re

soup = BeautifulSoup('<a title="Next Page - Results 1 to 60 " href="bla bla" class="smallfont" rel="next">&gt;</a>')

elements = soup.findAll('a', {'title':re.compile('Next Page.')}) 
# get all 'a' elements with 'title' attribute as 'Next Page something' into a list

for e in elements:
    if str(e.string) == '>' or e.string == '&gt;': # check if string inside 'a' tag is '>'
        print e['href']
于 2012-12-28T04:24:54.540 回答