3

我正在使用正则表达式从网站编译价格。

PriceFinder = re.compile('(?<=\n\s\<b>\$)(\d*\.\d{2})(?=\<\/)|(?<=\"FF0000"><b>\$)(\d*\.\d{2})(?=\<\/)')
Price = re.findall(PriceFinder, str(soup))
print Price

我得到以下结果:

[('', '30.99'), ('', '30.99'), ('', '30.99'), ('34.99', ''), ('34.99', '')

我想知道我必须添加到我的正则表达式中才能获得没有任何空元素的列表。

['30.99','30.99','30.99','34.99','34.99']

谢谢

4

1 回答 1

0

好的,我写了我的第一个 python 来回答这个问题:

#!/usr/bin/python

import re

r = re.compile('(?:\n\s\<b>\$|\"FF0000"><b>\$)(\d*\.\d{2})(?=\<\/)')
p = re.findall(r, '<x y="FF0000"><b>$30.99</b></x>\n <b>$31.99</b>')
print p

打印出来['30.99', '31.99']

于 2013-06-26T20:44:56.880 回答