selenium - Selenium-wire 响应对象 - 将响应主体作为字符串而不是字节获取的方法

Question

我想在 selenium-wire 中获取响应正文作为字符串，我最终将其解析为 JSON。

response.body在 selenium-wire 中给出字节字符串。我尝试将其解码为，response.body.decode('utf-8')但这会导致解码错误。

有人可以帮我弄这个吗？我对这两种解决方案都很好：

一种将字节字符串解码为普通字符串的方法
一种首先将响应正文作为普通字符串的方法

score 1 · Accepted Answer

我想分享我的解决方案，它对我有用。

在 python >= 3.5.x

from seleniumwire import webdriver
import chromedriver_autoinstaller
import brotli

chromedriver_autoinstaller.install()
driver = webdriver.Chrome()

driver.get('https://www.facebook.com')

for request in driver.requests:
    if request.url == "https://www.facebook.com/":
        resp = request.response.body
        resp = brotli.decompress(resp)
        print(resp[0:200].decode("utf-8"))

driver.quit()

score 1 · Accepted Answer

默认情况下，selenium-wire 以字节形式返回正文响应。

文档说：

“响应正文为字节。如果响应没有正文，则正文的值将为空，即 b''。有时正文可能已由服务器编码 - 例如压缩。您可以使用 disable_encoding 选项防止这种情况。手动解码您可以执行的编码响应正文：

from seleniumwire.utils import decode

body = decode(response.body, response.headers.get('Content-Encoding', 'identity'))"

它对我有用。

score 0 · Accepted Answer

我想出了一种方法来做到这一点（不是理想的方法）在制作 selenium webdriver 对象时，您可以传递一个参数options，您可以在其中明确告诉它提供解码的请求和响应对象，而不是作为字节。

score 0 · Accepted Answer

把这个：

decode(request.response.body, request.response.headers.get('Content-Encoding', 'identity'))

在你发表声明之前：

response.body.decode('utf-8')

完整代码：

from seleniumwire import webdriver
from seleniumwire.utils import decode as sw_decode

browser = webdriver.Chrome()

browser.get(url)

for request in browser.requests:
    if request.url == url:
        data = sw_decode(request.response.body, request.response.headers.get('Content-Encoding', 'identity'))
        data = data.decode("utf8")
        print(type(data))
        break

browser.quit()

输出：

<class 'str'>

selenium - Selenium-wire 响应对象 - 将响应主体作为字符串而不是字节获取的方法

4 回答 4

Related

Reference