这是我第一次这样做,所以我最好提前为我的菜鸟错误道歉。我正在尝试通过在该州内搜索名字和姓氏来抓取 legacy.com 的第一页结果。我是编程新手,正在使用 scraperwiki 来编写代码。它起作用了,但是在 10,000 个 ish 查询有时间处理之前很久,我的 cpu 时间就用完了。现在我正在尝试保存进度,在时间不足时捕捉,然后从中断的地方继续。
我无法保存工作,其他部分的任何帮助也将不胜感激。到目前为止,我只是在抓取链接,但如果有一种方法可以保存链接页面的主要内容,那也会很有帮助。
这是我的代码:
import scraperwiki
from urllib import urlopen
from BeautifulSoup import BeautifulSoup
f = open('/tmp/workfile', 'w')
#read database, find last, start from there
def searchname(fname, lname, id, stateid):
url = 'http://www.legacy.com/ns/obitfinder/obituary-search.aspx?daterange=Last1Yrs&firstname= %s &lastname= %s &countryid=1&stateid=%s&affiliateid=all' % (fname, lname, stateid)
obits=urlopen(url)
soup=BeautifulSoup(obits)
obits_links=soup.findAll("div", {"class":"obitName"})
print obits_links
s = str(obits_links)
id2 = int(id)
f.write(s)
#save the database here
scraperwiki.sqlite.save(unique_keys=['id2'], data=['id2', 'fname', 'lname', 'state_id', 's'])
# Import Data from CSV
import scraperwiki
data = scraperwiki.scrape("https://dl.dropbox.com/u/14390755/legacy.csv")
import csv
reader = csv.DictReader(data.splitlines())
for row in reader:
#scraperwiki.sqlite.save(unique_keys=['id'], 'fname', 'lname', 'state_id', data=row)
FNAME = str(row['fname'])
LNAME = str(row['lname'])
ID = str(row['id'])
STATE = str(row['state_id'])
print "Person: %s %s" % (FNAME,LNAME)
searchname(FNAME, LNAME, ID, STATE)
f.close()
f = open('/tmp/workfile', 'r')
data = f.read()
print data