我试图找出处理以下数据的最佳方法。我正在抓取一个站点并使用文本 (.prn) 文件(用于打印的文件,这是包含我想要的数据的文件,我认为这会比 Adobe Acrobat 文件更好)来收集数据。我的问题是当我将数据带入 python 时:数据只是在屏幕上一次一个字母垂直向下出现,所以即使有多行,这些数据也只是在一列中流入。我想知道是否有人会知道如何以更“传统”的方式输入数据,我可以引入 row[0]、row [1] 等......这是我的代码以防万一(你还可以看到我尝试过的其他一些功能)。
import os
import urllib
import urllib2
import string
import sys
import os
from bs4 import BeautifulSoup
import csv
import mechanize
from numpy import*
import datetime
import traceback
from pylab import*
site="http://www.treasurydirect.gov/govt/reports/pd/mspd/mspd.htm"
br = mechanize.Browser()
br.set_handle_equiv(False)
br.open(site)
print 'br.title',br.title()
allforms = list(br.forms())
br.form = allforms[0]
br.follow_link(text_regex="February", nr=0)
#br.click_link(text='February', nr=0) # this works to
#next page
print br.title()
allforms = list(br.forms())
print allforms
br.form = allforms[0]
getstuff=br.click_link(text="Text (.prn)", nr=0) # this works to
#getstuff= br.click_link(text="Adobe Acrobat (.pdf)", nr=0) Adobe Acrobat (.pdf)
br.open(getstuff)
csvData=br.response().read() # use read to BeautifulSoup(x)
#site = BeautifulSoup(csvData)
#print site
for row in csvData:
print row[0]
以下是文本 (.prt) 文件所在的确切网站页面: http ://www.treasurydirect.gov/govt/reports/pd/mspd/2013/2013_feb.htm
我正在尝试处理摘要下的文本(.prn)文件中的数据。请就处理数据的最佳方式提供建议。
我正在使用 python27、mechanize、beautiful soup 和 urllib