我爬取了以下页面:
http://www.nasa.gov/topics/earth/features/plains-tornadoes-20120417.html
但是我在调用时遇到了分段错误(核心转储):BeautifulSoup(page_html),其中 page_html 是请求库中的内容。这是 BeautifulSoup 的错误吗?有什么办法可以解决这个问题吗?甚至像 try...except 这样的方法也会帮助我运行我的代码。提前致谢。
代码如下:
import requests
from bs4 import BeautifulSoup
toy_url = 'http://www.nasa.gov/topics/earth/features/plains-tornadoes-20120417.html'
res = requests.get(toy_url,headers={"USER-Agent":"Firefox/12.0"})
page = res.content
soup = BeautifulSoup(page)