python - 为什么这个泡菜在没有递归的情况下达到最大递归深度？

Question

这是我的代码，它不包含递归，但它在第一个泡菜时达到了最大递归深度......

代码：

#!/usr/bin/env python
from bs4 import BeautifulSoup
from urllib2 import urlopen
import pickle

# open page and return soup list
def get_page_startups(page_url):
  html = urlopen(page_url).read()
  soup = BeautifulSoup(html, "lxml")
  return soup.find_all("div","startup item")

#
# Get certain text from startup soup
#
def get_name(startup):
  return startup.find("a", "profile").string
def get_website(startup):
  return startup.find("a", "visit")["href"]
def get_status(startup):
  return startup.find("p","status").strong.string[8:]
def get_twitter(startup):
  return startup.find("a", "comment").string
def get_high_concept_pitch(startup):
  return startup.find("div","headline").find_all("em")[1].string
def get_elevator_pitch(startup):
  startup_soup = BeautifulSoup(urlopen("http://startupli.st" + startup.find("a","profile")["href"]).read(),"lxml")
  return startup_soup.find("p", "desc").string.rstrip().lstrip()
def get_tags(startup):
  return startup.find("p","tags").string
def get_blog(startup):
  try:
    return startup.find("a","visit blog")["href"]
  except TypeError:
    return None
def get_facebook(startup):
  try:
    return startup.find("a","visit facebook")["href"]
  except TypeError:
    return None
def get_angellist(startup):
  try:
    return startup.find("a","visit angellist")["href"]
  except TypeError:
    return None
def get_linkedin(startup):
  try:
    return startup.find("a","visit linkedin")["href"]
  except TypeError:
    return None
def get_crunchbase(startup):
  try:
    return startup.find("a","visit crunchbase")["href"]
  except TypeError:
    return None


# site to scrape
BASE_URL = "http://startupli.st/startups/latest/"

# scrape all pages
for page_no in xrange(1,142):
  startups = get_page_startups(BASE_URL + str(page_no))

  # search soup and pickle data
  for i, startup in enumerate(startups):
    s = {}
    s['name'] = get_name(startup)
    s['website'] = get_website(startup)
    s['status'] = get_status(startup)
    s['high_concept_pitch'] = get_high_concept_pitch(startup)
    s['elevator_pitch'] = get_elevator_pitch(startup)
    s['tags'] = get_tags(startup)
    s['twitter'] = get_twitter(startup)
    s['facebook'] = get_facebook(startup)
    s['blog'] = get_blog(startup)
    s['angellist'] = get_angellist(startup)
    s['linkedin'] = get_linkedin(startup)
    s['crunchbase'] = get_crunchbase(startup)

    f = open(str(i)+".pkl", "wb")
    pickle.dump(s,f)
    f.close()

  print "Done " + str(page_no)

这是0.pkl引发异常后的内容：

http://pastebin.com/DVS1GKzz数千行！

pickle 中的 BASE_URL 中有一些 HTML ......但我没有腌制任何 html 字符串......

score 19 · Accepted Answer

BeautifulSoup.string属性实际上不是字符串：

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup('<div>Foo</div>')
>>> soup.find('div').string
    u'Foo'
>>> type(soup.find('div').string)
    bs4.element.NavigableString

尝试str(soup.find('div').string)改用，看看是否有帮助。另外，我不认为 Pickle 真的是这里最好的格式。在这种情况下，JSON 要容易得多。

score 4 · Accepted Answer

很可能pickle在内部进行递归，并且您尝试解析的文件很大。您可以尝试增加允许的递归次数的限制。

import sys
sys.setrecursionlimit(10000)

但是，不建议将这用于任何类型的生产就绪应用程序，因为它可能会掩盖实际问题，但有助于在调试期间突出显示问题。

score 2 · Accepted Answer

Pickle 无法处理 BeautifulSoup 节点。一些解决方法的类似问题：

python - 为什么这个泡菜在没有递归的情况下达到最大递归深度？

3 回答 3

Related

Reference