python - 使用 HtmlXPathSelector 返回包含 HTML 实体的字符串

Question

我有一个从网页解析的 JSON 字符串，我正试图用json.loads()它来将其转换为 Python 字典。但是，JSON 字符串中的某些值包含双引号，例如

'{"title": "The "Star Wars Kid": Where is he now?"}'

显然这不是一个正确的 JSON 字符串，并且会json.loads()抱怨。使用类似的东西string.replace('"', '\\"')也不起作用，因为这是一个单一的字符串，这样做会影响正确的双引号以及坏的双引号。

顺便说一句，这不会在抓取时导致 HtmlXPathSelector 错误，因为在网页上，错误的引号是这样编码的

'{"title": "The &#34;Star Wars Kid&#34;: Where is he now?"}'

如何正确解析此字符串json.loads()？

编辑：我知道在编码的引号被解码之前解析字符串会很简单（如第二个示例所示），所以我想我真正要问的是如何从python HtmlXPathSelector。

如果我正在抓取的 HTML 文档包含此字符串

'{"title": "The &#34;Star Wars Kid&#34;: Where Is He Now?"}'

如何让 HtmlXPathSelector 在不解码编码引号的情况下返回该确切字符串？

score 2 · Accepted Answer

{"title": "The &#34;Star Wars Kid&#34;: Where is he now?"}

这是您想要解码 JSON 的时候。然后稍后替换“坏引号”。

python - 使用 HtmlXPathSelector 返回包​​含 HTML 实体的字符串