python - 如何在 urllib 中捕获 404 错误？（蟒蛇3）

Question

我已经阅读了数十个类似问题的示例，但我无法运行我所看到的任何解决方案或其变体。我正在抓取屏幕，我只想忽略 404 错误（跳过页面）。我明白了

'AttributeError: 'module' 对象没有属性 'HTTPError'。

我也试过'URLError'。我已经看到几乎相同的语法被接受为工作答案。有任何想法吗？这是我所拥有的：

import urllib
import datetime
from bs4 import BeautifulSoup

class EarningsAnnouncement:
    def __init__(self, Company, Ticker, EPSEst, AnnouncementDate, AnnouncementTime):
        self.Company = Company
        self.Ticker = Ticker
        self.EPSEst = EPSEst
        self.AnnouncementDate = AnnouncementDate
        self.AnnouncementTime = AnnouncementTime

webBaseStr = 'http://biz.yahoo.com/research/earncal/'
earningsAnnouncements = []
dayVar = datetime.date.today()
for dte in range(1, 30):
    currDay = str(dayVar.day)
    currMonth = str(dayVar.month)
    currYear = str(dayVar.year)
    if (len(currDay)==1): currDay = '0' + currDay
    if (len(currMonth)==1): currMonth = '0' + currMonth
    dateStr = currYear + currMonth + currDay
    webString = webBaseStr + dateStr + '.html'
    try:
        #with urllib.request.urlopen(webString) as url: page = url.read()
        page = urllib.request.urlopen(webString).read()
        soup = BeautifulSoup(page)
        tbls = soup.findAll('table')
        tbl6= tbls[6]
        rows = tbl6.findAll('tr')
        rows = rows[2:len(rows)-1]
        for earn in rows:
            earningsAnnouncements.append(EarningsAnnouncement(earn.contents[0], earn.contents[1],
            earn.contents[3], dateStr, earn.contents[3]))
    except urllib.HTTPError as err:
        if err.code == 404:
            continue
        else:
            raise

    dayVar += datetime.timedelta(days=1)

score 18 · Accepted Answer

看起来对于 urllib（不是 urllib2），例外是urllib.error.HTTPError，而不是urllib.HTTPError。有关更多信息，请参阅文档。

python - 如何在 urllib 中捕获 404 错误？（蟒蛇3）

1 回答 1

Related

Reference