1

我是 python 新手,做了一个简单的爬虫,可以登录多个分析帐户并将一些数据打印到 CSV。我打印到 CSV 的格式是我使用以下代码创建的字典:

import csv
from collections import OrderedDict
import time
def save_file(website, visitors, links, sources):
    date = time.strftime("%d/%m/%Y")
    d = OrderedDict()
    d['Title'] =  website    # website string
    d['Date'] = date         # date string
    d['Vistors'] = visitors  # integer
    d['Links'] = links       # dictionary of links - URL : Clicks
    d['Sources'] = sources   # dictionary of sources - Source: Clicks

    path = os.path.expanduser('~/Desktop/Traffic Report.csv')
    with open(path, 'a') as f:
        writer = csv.DictWriter(f, d, delimiter=',')
        writer.writerow(d)

当我使用此代码打印到 CSV 时,站点、日期和访问者单元格工作得很好。链接/源单元格(我使用 beautifulsoup 抓取的数据)充满了额外的引号和字符,如下所示。

{"['www.example1.com/']": '1', "['www.example2.com']": '1', "['www.example3.com']": '1', "['www.example4.com/']": '3', "['www.example5.com/']": '1'}
{"['Links']": '2', "['Social media']": '5', "['Direct']": '2', "['Searches']": '1'}

有没有办法删除许多这些字符并打印到 csv 为: www.example1.com : 1, www.example2.com : 1, www.example3.com : 1 ...

任何帮助将不胜感激!

4

2 回答 2

1

您必须自己进行格式化。构建一个字符串,而不是字典:

d['Links'] = ', '.join(['{}: {}'.format(*item) for item in links.items()])
d['Sources'] = ', '.join(['{}: {}'.format(*item) for item in sources.items()])

这会产生link1: count1, link2: count2结果。

作为旁注,您不需要在OrderedDict这里使用对象,只需DictWriter按照您希望它们写入的顺序给出一系列键。我也会在循环之外打开 CSV文件

d = {
    'Title': website,
    'Date': date,
    'Visitors': visitors,
    'Links': ', '.join(['{}: {}'.format(*item) for item in links.items()]),
    'Sources': ', '.join(['{}: {}'.format(*item) for item in sources.items()],
}

path = os.path.expanduser('~/Desktop/Traffic Report.csv')
with open(path, 'a') as f:
    fields = ('Title', 'Date', 'Visitors', 'Links', 'Sources')
    writer = csv.DictWriter(f, fields, delimiter=',')
    writer.writerow(d)
于 2014-02-24T13:42:30.580 回答
1
def convert(dct):
    return ", ".join("%s : %s" % (key, value) for key, value in dct.iteritems())

(使用.items()而不是.iteritems()if Python3.x)然后

d['Links'] = convert(links)
d['Sources'] = convert(sources)
于 2014-02-24T13:42:54.620 回答