我正在使用 Scrapy 进行网络抓取。网站在<code>
标签之间嵌入了 json,例如:
<code id="content" style="display:none;"><!--{"content": "text1",...,..., "compute": "text2"}--></code>
使用 xpath,我能够提取<code>
标签内的注释。用过的:
hxs.select("//code[@id='content']/comment()").extract()
条带注释字符后,内容有content = "{"content": "text1",...,..., "compute": "text2"}"
使用 json.loads(content) 构建 json 时,出现"ValueError: No JSON object could be decoded"
错误。
此外, str(content) 抛出:
"UnicodeEncodeError: 'ascii' codec can't encode characters in position 106512-106513: ordinal not in range(128)"
106512 处的值是'\xa7'
提前致谢。