1

我正在尝试使用 Python Pyppeteer 获取 XHR。这是我的代码。

import asyncio
from pyppeteer import launch
import json

async def intercept_response(res):
    resourceType = res.request.resourceType
    if resourceType in ['xhr']:
        resp = await res.text()
        try:
            r = json.loads(resp)
            print(res.request.url)
        except:
            pass
    return res.request.url

async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()
    page.on('response', intercept_response)
    await page.setUserAgent('Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1')
    await page.goto('https://www.iesdouyin.com/share/user/70015326114')
    await page.waitForSelector('li.item goWork')
    await browser.close()

if __name__ == '__main__':
    url = asyncio.run(main())
    print('IS THIE WAHT YOU WANT:', url)

但是当我运行它时,浏览器永远不会关闭,并且在 30 秒后,它给了我一个 TimeoutError。并且代码应该返回 xhr 响应的 url,但它没有。

4

1 回答 1

1

您遇到此问题的原因是此版本使用的事件发射器pyppeteer不支持async事件订阅者。正在积极开发的库的下一个版本(在撰写本文时)将允许这样做。

def intercept_response(res):
    async def intercept_response(res):
        resourceType = res.request.resourceType
        if resourceType in ['xhr']:
            resp = await res.text()
            try:
                r = json.loads(resp)
                print(res.request.url)
            except:
                pass
        return res.request.url
    asyncio.get_event_loop().run_until_complete(intercept_response(res))

其次,您的代码并非全部用于“返回 xhr 响应的 url”。您的函数main隐式返回None. 仅仅因为您指定了一个事件处理程序并不意味着该参数的返回值是从您首先附加该处理程序的函数神奇地返回的。不过,这是完成我认为您正在尝试做的事情的一种方法:

async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()
    resp_fut, interceptor = make_interceptor()
    page.on('response', interceptor)
    await page.goto('https://www.iesdouyin.com/share/user/70015326114')
    await page.waitForSelector('li.item goWork')
    resp = await resp_fut
    await browser.close()
    return resp

但是,此解决方案并不是最好的,因为如果未设置未来的结果,它将无限期地挂起。您可能想看一下asyncio.wait_for,或者更好的是,只需使用内置Page.waitForRequest方法 (;

于 2020-05-18T16:38:26.663 回答