我正在使用 beautifulsoup 来抓取网站,我想将抓取的日期与从调用 datetime.date.today() 收到的日期进行比较
from BeautifulSoup import BeautifulSoup
import datetime, urllib2, re
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
url = ('http://phoenix.backpage.com/SportsEquipForSale/')
myUrl = opener.open(url).read()
soup = BeautifulSoup(myUrl)
outfile = open('C:/Projects/Web Scraping Practice/datetime.txt', 'w')
date = soup.find("div", {"class" : "date"}) #scraped date
date = re.sub('[.]', '', date.contents[0]).strip()
outfile.write(datetime.date.today().strftime('%a %b %w')+ '\n'+ date)
现在,代码只是应该将当前日期(重新格式化)和抓取的日期转储到文件中。我遇到的问题是 datetime.date.today() 只评估一次,所以每次我运行这个程序 datetime.date.today() 只在我收到缓存后每天运行程序的第一天是正确的日期如果格式不正确,我提前道歉我对编程比较陌生。