我正在尝试取消电子商务网站(在本例中为 Flipkart)网页上列出的所有产品的标题。现在,我要抓取的产品将取决于用户输入的关键字。如果我输入产品“XYZXYZ”,生成的典型 URL 将是:
http://www.flipkart.com/search?q=XYXXYZ&as=off&as-show=on&otracker=start
现在,使用此链接作为模板,我编写了以下脚本,根据输入的关键字删除任何给定网页下列出的所有产品的标题:
import requests
from bs4 import BeautifulSoup
def flipp(k):
url = "http://www.flipkart.com/search?q=" + str(k) + "&as=off&as-show=on&otracker=start"
ss = requests.get(url)
src = ss.text
obj = BeautifulSoup(src)
for e in obj.findAll("a", {'class' : 'lu-title'}):
title = e.string
print unicode(title)
h = raw_input("Enter a keyword:")
print flipp(h)
但是,上面的脚本None
作为输出返回。当我尝试在每一步调试时,我发现requests
模块无法获取网页的源代码。这里似乎发生了什么?