我正在使用 beautifulsoup 来抓取 HTML 数据。
我的问题是输出显示了一些我不想看到的信息,所以,我尝试使用正则表达式删除该信息,
但是,不擅长正则表达式,所以我把我的脚本和我想要的输出放在这里,希望任何人都可以帮助我。
问候
我的输出现在显示如下:
<title>Music Games DVDs at JB Hi-Fi Australia</title>
Apple iPad mini 16GB Wi-Fi (Black) [Pick-up In-store Only]Â
<span class="SKU">MD528X/A</span>
Apple iPad mini 16GB Wi-Fi (White) [Pick-up In-store Only]Â
<span class="SKU">MD531X/A</span>
Apple iPad mini 32GB Wi-Fi (Black) [Pick-up In-store Only]Â
<span class="SKU">MD529X/A</span>
但是,我只希望它显示为:
JB Hi-Fi Australia
Apple iPad mini 16GB Wi-Fi (Black)
Apple iPad mini 16GB Wi-Fi (White)
以下是我的脚本
url1="http://www.jbhifionline.com.au/support.aspx?post=1&results=10&q=ipad+mini&source=all&bnSearch.x=0&bnSearch.y=0"
page=urllib2.urlopen(url1)
soup = BeautifulSoup(page.read())
#website source site name : <title>Music Games DVDs at JB Hi-FiAustralia</title>
sitename1=soup.html.head.title
print sitename1 ##issue here!!output shows <title>....</title>
#website source name:<td class="check_title">Apple iPad mini 16GB Wi-Fi (Black) [Pick-up In-store Only]<span class="SKU$`
productname1=soup.findAll('td',{'class':'check_title'})
for eachproductname1 in productname1:
print eachproductname1.renderContents().replace("^<span>","")