1

所以我有以下一组解析美味信息的代码。它以以下格式从 Delicious 页面打印数据

书签 | 人数

书签 | 人数等...

我曾经使用以下方法来查找此信息。

def extract (soup):
    links = soup.findAll('a',rel='nofollow')
    for link in links:
        print >> outfile, link['href']

    hits = soup.findAll('span', attrs={'class': 'delNavCount'})
    for hit in hits:
        print >> outfile, hit.contents


#File to export data to
outfile = open("output.txt", "w")

#Browser Agent
br = Browser()    
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]


url= "http://www.delicious.com/asd"
page = br.open(url)
html = page.read()
soup = BeautifulSoup(html)
extract(soup)

但问题是有些书签没有人数,所以我决定对它进行不同的解析,这样我就可以同时获取数据并并排打印出书签和人数。

编辑:使用此更新版本从 15 到 5 秒得到它,还有更多建议

def extract (soup):
    bookmarkset = soup.findAll('div', 'data')
    for bookmark in bookmarkset:
        link = bookmark.find('a',)
        vote = bookmark.find('span', 'delNavCount')
        try:
            print >> outfile, link['href'], " | " ,vote.contents
        except:
            print >> outfile, "[u'0']"
    #print bookmarkset


#File to export data to
outfile = open("output.txt", "w")

#Browser Agent
br = Browser()    
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]


url= "http://www.delicious.com/asd"
page = br.open(url)
html = page.read()
soup = BeautifulSoup(html)
extract(soup)

不过,这方面的性能很糟糕,解析第一页需要 17 秒,然后在相当不错的机器上大约需要 15 秒。从代码的第一位到第二位时,它显着下降。我能做些什么来改善这里的性能吗?

4

3 回答 3

3

我不明白你为什么要分配给vote- 两次。第一个任务是不必要的,而且确实很繁重,因为它必须在每次迭代时解析整个文档。为什么?

   vote = BeautifulSoup(html)
   vote = bookmark.findAll('span', attrs={'class': 'delNavCount'})
于 2010-12-19T03:22:00.087 回答
3

如果您关心性能,您可能会看看与美味 API 对话的东西,而不是屏幕抓取,即pydelicious。例如:

>>> import pydelicious
>>> pydelicious.get_userposts('asd')
[{'extended': '', 'description': u'Ksplice - System administration and software blog', 'tags': u'sysadm, blog, interesting', 'url': u'http://blog.ksplice.com/', 'user': u'asd'
于 2010-12-19T04:14:26.237 回答
0

BeautifulSoup 在这个例子中做的比你需要的要多得多。如果您真的想提高速度,那么我建议您采用更基本的 urllib 方法 + 一个简单的逐行解析器。

在现代机器上解析“asd”示例大小的页面应该不到一秒钟。

于 2010-12-19T04:01:32.843 回答