-2

我正在尝试使用goquery解析时间表内容以便稍后使用它。但我有一个问题。

我有两个功能。第一个获取 html 文档并搜索令牌 (csrfmiddlewaretoken),第二个使用此令牌发送请求并提取信息。完成从页面中提取所有必要信息后,我搜索令牌以在将来的请求中使用它并存储它。

但是由于某种原因发现的令牌在到达时变成了一个空字符串if len(foundCsrfToken) == 0 {。如果我在语句之前打印令牌的长度,它会打印:

...
64
0
...

我已经摆脱了所有的 goroutines 以防万一。

func findCsrfMiddlewareToken(responseBody io.Reader) (string, error) {
    document, err := goquery.NewDocumentFromReader(responseBody)
    if err != nil {
        return "", err
    }

    var foundCsrfToken string
    document.Find("script").Each(func(_ int, scrpt *goquery.Selection) {
        scriptText := scrpt.Text()
        if funcDefIndex := strings.Index(scriptText, "function Filter"); funcDefIndex != -1 {
            csrfTokenValueStart := strings.Index(scriptText, "csrfmiddlewaretoken: '")
            offset := csrfTokenValueStart + len("csrfmiddlewaretoken: '")
            foundCsrfToken = scriptText[offset : offset+csrfMiddlewareTokenLength]
        }
    })
    if len(foundCsrfToken) == 0 {
        return "", errNoCsrfMiddlewareToken
    }
    return foundCsrfToken, nil
}

func (parser *TimetableParser) ParseTimetable(timetableFilterInfo internal.TimetableInfo) (internal.Timetable, error) {
    timetable := internal.Timetable{}

    requestBody := makeFormValues(timetableFilterInfo, parser.csrfMiddlewareToken).Encode()
    request, err := http.NewRequest("POST", baseUrl, strings.NewReader(requestBody))
    if err != nil {
        return timetable, err
    }
    request.Header.Add("Content-Type", "application/x-www-form-urlencoded")
    request.Header.Add("Content-Length", strconv.Itoa(len(requestBody)))
    request.Header.Add("Referer", baseUrl)

    response, err := parser.client.Do(request)
    if err != nil {
        return timetable, err
    }
    defer response.Body.Close()

    document, err := goquery.NewDocumentFromReader(response.Body)
    if err != nil {
        return timetable, err
    }

    document.Find("table#schedule").Find("tr").Each(func(rowIndex int, row *goquery.Selection) {
        subjectTimeElement := row.Closest("td")
        subjectTimeElement.NextAll().Each(func(columnIndex int, cell *goquery.Selection) {
            subjectInfo := extractSubjectInfoFromCell(cell)
            subjectInfo.Order = rowIndex
            timetable.Subjects[columnIndex][rowIndex] = subjectInfo
        })
    })

    parser.csrfMiddlewareToken, err = findCsrfMiddlewareToken(response.Body)
    if err != nil {
            log.Println("csrfMiddlewareToken: " + err.Error())
    }
    return timetable, nil
}

Go 版本:go1.17.1 windows/amd64

goquery 版本:1.7.1

4

1 回答 1

1

我刚刚意识到出了什么问题。io.Reader 被视为流。因此,当我从中读取一次时,它变成了空的。如您所见,在收集所有必要信息并读取响应后,它被传递到第一个函数。但它已经是空的了。当我findCsrfMiddlewareToken第一次调用函数时,它照常工作并打印令牌长度(64)。但是当我接到第二个空响应的电话时,它会打印 0。

可能的解决方案:如何从同一个 io.Reader 读取多次

于 2021-10-03T21:17:17.813 回答