我需要废弃 2 个返回巨大 JSON (1.2MB) 并使用 JSON + JavaScript 构建 HTML 的网站。我想知道最好的方法是什么?
使用 selenium 渲染 JS 并抓取 HTML
|-> 不是我最喜欢的。性能问题。
在蜘蛛本身中解析 JSON 并创建项目。
|-> 在这种情况下,你们推荐哪个库?
|-> 这是可扩展的吗?因为它将仅限于域请求。
将 JSON 本身保存到项目并构建管道以创建项目。
将 JSON 保存到 NoSQL 或队列并使用其他脚本创建项目。
谢谢你们。
与大多数事情一样,这取决于您的目标。如果您想要最忠实的 html 渲染,那么您几乎只能在 selenium 或其他可以执行 javascript 的程序化 Web 客户端中执行此操作。
如果您只是对 JSON 对象感兴趣,您可能想研究使用 scrapy 或定制请求来获取 JSON,然后使用 python 的标准json 模块之类的东西来解释它。
该模块可以非常方便地将 JSON 转换为 dicts,并且可以很容易地使用回调函数将这些 dicts 自动转换为其他 python 对象。
不幸的是,我不确定这种方法的可扩展性。这是你必须进一步调查的事情。