网站上的日期是“1899 年 8 月 14 日”、“1901 年 12 月 13 日”等。“1899 年 8 月 14 日”按原样打印。但是当从网站上抓取并写入 csv 时,“1901 年 12 月 13 日”变成“2001 年 12 月 13 日”。示例代码如下所示;
url = ['www.example1.com','www.example2.com','www.example3.com' ... 'www.example4.com']
output = csv.writer(open('output_demo.csv','wb',))
output.writerow('Name', 'Start Date')
for page in url:
startdate = []
name = []
content = lxml.html.parse(page)
name_n = content.xpath('//tr[@class="data1"]/td[1]')
start_d = content.xpath('//tr[@class="data1"]/td[2]') # extracting the date
sdate = [sd.text for sd in start_d]
name_list = [na.text for na in name_n]
startdate.append(sdate)
name.append(name_list)
zipped = zip(name,startdate)
for row in zipped:
output.writerow(row) # writing 'date' and 'name'
zipped = None
这是网站