0

我目前的实现是:

import csv
import urllib.request
from bs4 import BeautifulSoup
f=urllib.request.urlopen('<my_url_goes_here>')
soup = BeautifulSoup(f.read())
my_csv = csv.reader(soup.pre.text,delimiter=",")
for row in my_csv:
    print(row)

我想以以下格式打印出我的数据:

//datestamp,SvcName,AvgSvcTime,MinSvcTime,MaxSvcTime,SvcVol
2013-03-19 00:00:00,cfmeqdequeue,1,0,10,198
2013-03-19 00:01:00,cfmeqdequeue,1,0,10,198
2013-03-19 00:02:00,cfmeqdequeue,1,0,10,198

但是,实际输出如下所示:

['c']
['f']
['m']
['e']
['q']
['d']
['e']
['q']
['u']
['e']
['u']
['e']

注意:soup.pre.text打印以下内容并具有正确的换行符:

'\n//datestamp,SvcName,AvgSvcTime,MinSvcTime,MaxSvcTime,SvcVol\n2013-03-19 00:00:00,cfmeqdequeue,1,0,10,198\n2013-03-19 00:01:00,cfmeqdequeue,1,0,10,198\n

因此,当我使用 csv.reader() 或 for 循环时,一定有问题。

4

1 回答 1

1

你正在传递csv.reader一个字符串。[或者足够接近的东西——我不记得是否.text给出了一个字符串或 bs4 的类似字符串的对象之一。] 它需要一个类似文件的对象。您可以使用该StringIO模块获取一个字符串,使其表现得像一个文件来解决这个问题。例如,您有

>>> import csv
>>> s = '\n//datestamp,SvcName,AvgSvcTime,MinSvcTime,MaxSvcTime,SvcVol\n2013-03-19 00:00:00,cfmeqdequeue,1,0,10,198\n2013-03-19 00:01:00,cfmeqdequeue,1,0,10,198\n'
>>> list(csv.reader(s))[:5]
[[], ['/'], ['/'], ['d'], ['a']]

但你可以

>>> from StringIO import StringIO
>>> list(csv.reader(StringIO(s)))[:5]
[[], ['//datestamp', 'SvcName', 'AvgSvcTime', 'MinSvcTime', 'MaxSvcTime', 'SvcVol'], ['2013-03-19 00:00:00', 'cfmeqdequeue', '1', '0', '10', '198'], ['2013-03-19 00:01:00', 'cfmeqdequeue', '1', '0', '10', '198']]

请注意,您可能想要调用.strip()您的文本以删除无关的空格,特别是如果您想使用DictReader这样您就不必记住哪一列是哪一列。

于 2013-04-23T18:12:26.287 回答