1

我需要废弃 2 个返回巨大 JSON (1.2MB) 并使用 JSON + JavaScript 构建 HTML 的网站。我想知道最好的方法是什么?

  1. 使用 selenium 渲染 JS 并抓取 HTML

    |-> 不是我最喜欢的。性能问题。

  2. 在蜘蛛本身中解析 JSON 并创建项目。

    |-> 在这种情况下,你们推荐哪个库?

    |-> 这是可扩展的吗?因为它将仅限于域请求。

  3. 将 JSON 本身保存到项目并构建管道以创建项目。

  4. 将 JSON 保存到 NoSQL 或队列并使用其他脚本创建项目。

谢谢你们。

4

1 回答 1

1

与大多数事情一样,这取决于您的目标。如果您想要最忠实的 html 渲染,那么您几乎只能在 selenium 或其他可以执行 javascript 的程序化 Web 客户端中执行此操作。

如果您只是对 JSON 对象感兴趣,您可能想研究使用 scrapy 或定制请求来获取 JSON,然后使用 python 的标准json 模块之类的东西来解释它。

该模块可以非常方便地将 JSON 转换为 dicts,并且可以很容易地使用回调函数将这些 dicts 自动转换为其他 python 对象。

不幸的是,我不确定这种方法的可扩展性。这是你必须进一步调查的事情。

于 2013-04-08T19:44:27.550 回答