在使用scrapy从网络上抓取文件后,我正在尝试将文件保存到目录中。我正在从文件中提取日期并将其用作文件名。然而,我遇到的问题是某些文件具有相同的日期,即有两个文件的名称为“2009 年 6 月 2 日”。所以,我想做的是以某种方式检查是否已经有一个同名的文件,如果有,请将其命名为“June 2, 2009.1”之类的名称。
我正在使用的代码如下:
def parse_item(self, response):
self.log('Hi, this is an item page! %s' % response.url)
response = response.replace(body=response.body.replace('<br />', '\n'))
hxs = HtmlXPathSelector(response)
date = hxs.select("//div[@id='content']").extract()[0]
dateStrip = re.search(r"([A-Z]*|[A-z][a-z]+)\s\d*\d,\s[0-9]+", date)
newDate = dateStrip.group()
content = hxs.select("//div[@id='content']")
content = content.select('string()').extract()[0]
filename = ("/path/to/a/folder/ %s.txt") % (newDate)
with codecs.open(filename, 'w', encoding='utf-8') as output:
output.write(content)