我正在尝试使用 python 进行网络抓取。我正在尝试获取产品的链接(我的目标)
http://www.fastfurnishings.com/3-Piece-Reversible-Bonded-Leather-Match-Sofa-Set-i-p/bstrblm3p.htm
我正在抓取这个网址/网站
http://www.fastfurnishings.com/SearchResults.asp?Search=3-Piece+Reversible+Bonded+Leather+Match+Sofa+Set+in+Cream
如果您进行页面查看,您会发现没有某些 id 或标签可以帮助我确定我需要的 url,而且我也不太擅长正则表达式。到目前为止我在python中有这个
import urllib
import re
product = "3-Piece Reversible Bonded Leather Match Sofa Set in Cream"
productSearchUrl = product.replace(" ","+");
myurl = "http://www.fastfurnishings.com/SearchResults.asp?Search="+productSearchUrl
print myurl
htmlfile = urllib.urlopen(myurl)
htmltext = htmlfile.read()
regex = '<td valign="top" width="33%" align="center">(.+?)</td> '
r = re.compile(regex)
print re.findall(r,htmltext)
但那不是读任何东西......任何帮助将不胜感激