我一直在使用 Nokogiri 提取 XML 提要,它一直运行良好。添加了一个新的提要,我需要将其拉入,但它不会一次全部加载。如果我在浏览器中访问 xml 提要,我可以看到一组初始数据加载,然后很快就会加载更多数据。当我使用 Nokogiri 时,它只获取初始数据集。我还尝试使用 curl 来捕获提要并得到相同的结果。
如何从 XML 提要中获取所有数据?有没有可以传递给 Nokogiri 的选项或可以在 curl 上设置的标志?我查看了 Nokogiri 文档和 curl 手册页,但无法弄清楚。
当我拉下数据(使用 Nokogiri 或 curl)时,它看起来像这样(虽然有超过 2 个项目):
<?xml version="1.0" encoding="UTF-8"?>
<item-syndication version="5">
<item id="1">
<more-data >lorem ipsum</more-data>
</item>
<item id="2">
<more-data >lorem ipsum</more-data>
</item>
</item-syndication>
如果我在浏览器中访问该 url,它最初看起来像上面,但随后会加载更多项目,如下所示(最终超过 4 个项目):
<?xml version="1.0" encoding="UTF-8"?>
<item-syndication version="5">
<item id="1">
<more-data >lorem ipsum</more-data>
</item>
<item id="2">
<more-data >lorem ipsum</more-data>
</item>
<item id="3">
<more-data >lorem ipsum</more-data>
</item>
<item id="4">
<more-data >lorem ipsum</more-data>
</item>
</item-syndication>
以下是初始请求的请求和响应标头:
以下是网站图标的请求和响应标头,以防万一: