python - HTMLParser 的缓冲问题

Question

我正在开发一个网络机器人，它可以对我的大学进行调查以获取它所拥有的课程列表，到目前为止，我已经完成了很多工作。但是我在使用 HTML 解析器时遇到了问题。这是交易，当我单独获得每个专业的课程列表时，返回的课程数组是正确的。但是当我在 for 循环中这样做时，例如

for major in allMajors:
    dictionary[major] = GetAllCourses(major)

问题是字典积累了课程。例如if allMajors == ['MajorA', 'MajorB']，那么 MajorB 将包含 MajorA 和 MajorB 的课程。这是我的代码。

def UIUCGetCourses(major, s):
    url = "https://ui2web1.apps.uillinois.edu/BANPROD1/bwskfcls.P_GetCrse"
    payload = {u'sel_instr': [u'dummy'], u'sel_camp': [u'dummy', u'dummy'], 
      ...
    }

    r = s.post(url=url, data=payload)

    p = UIUCcoursesParser()
    p.feed(r.content)
    p.close()

    return p.courses, s

class UIUCcoursesParser(HTMLParser):
    print_data = False
    courses = []
    descriptions = []
    internal_string = ""

    def handle_starttag(self, tag, attr):
        if tag == 'td':
            for a in attr:                                  
                if a[0] == 'class' and a[1] == 'dddefault':
                    self.print_data = True

                if self.internal_string:
                    self.descriptions.append(self.internal_string)
                    self.internal_string = ""

    def handle_data(self, data):
        if self.print_data and data.isdigit():
            self.courses.append(data)
            self.print_data = False
        elif self.print_data:
            self.internal_string = self.internal_string + data.strip('\n')

score 1 · Accepted Answer

问题解决了。我是一个白痴！问题在这里：

class UIUCcoursesParser(HTMLParser):
    print_data = False
    courses = []
    descriptions = []
    internal_string = ""

这些变量是类变量而不是实例变量。http://legacy.python.org/doc/essays/ppt/acm-ws/sld051.htm

score 0 · Accepted Answer

我认为问题在于，当您真正需要实例范围时，您正在使用类范围数据：

class UIUCCoursesParse(HTMLParser):
    def __init__(self):
        super(UIUCCoursesParser, self).__init__()
        self.print_data = False
        self.courses = []
        self.descriptions = []
        self.internal_string = ""

在您的其他类方法中，当您引用self它时是合法的，但我认为这不是您想要的：

    def handle_starttag(...):
        ...
        self.descriptions.append(self.internal_string)

无论您创建多少解析器实例，这些都适用于单个类范围变量。

python - HTMLParser 的缓冲问题

2 回答 2

Related

Reference