<li class="li_dataline2">
<b> Expiry date: </b>14/09/2013
</li>
好的,这是一个简单的(我认为!?)有人可以告诉我如何提取日期吗?</b> </li>
那么使用 BeautifulSoup之间的一切?
谢谢。
<li class="li_dataline2">
<b> Expiry date: </b>14/09/2013
</li>
好的,这是一个简单的(我认为!?)有人可以告诉我如何提取日期吗?</b> </li>
那么使用 BeautifulSoup之间的一切?
谢谢。
您可以使用.contents
>>> from bs4 import BeautifulSoup as BS
>>> html = """<li class="li_dataline2">
...
...
... <b> Expiry date: </b>14/09/2013
...
...
... </li>"""
>>> soup = BS(html)
>>> print soup.find('li', {'class':'li_dataline2'}).contents[-1].strip()
14/09/2013
>>> from bs4 import BeautifulSoup
>>> s
'<li class="li_dataline2">\n\n\n<b> Expiry date: </b>14/09/2013\n\n\n</li>'
>>> soup = BeautifulSoup(s)
>>> soup.find('li', attrs={'class': 'li_dataline2'}).b.nextSibling.strip()
u'14/09/2013'
你也可以使用re
:
>>> p = re.compile('<b> Expiry date: </b>([\d/]+)\s*</li>')
>>> p.search(s).group(1)
'14/09/2013'
>>>