1

我正在使用 Diffbot 的文章 API 从任何站点抓取文章。目前我正在获取带有单个图像的文章,但我想抓取特定文章的所有图像。任何建议将不胜感激。

4

1 回答 1

2

Article API 应该默认抓取一篇文章中的所有图片。这是我在这篇文章上运行 Article API 时在“图像”数组中得到的内容:

"images": [
        {
          "pixelHeight": 106,
          "diffbotUri": "image|3|-317133287",
          "primary": true,
          "pixelWidth": 474,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897265phpstormlogo.jpg"
        },
        {
          "pixelHeight": 375,
          "diffbotUri": "image|3|-2098856075",
          "pixelWidth": 500,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897372Spear_point_knife_blade.jpg"
        },
        {
          "pixelHeight": 525,
          "diffbotUri": "image|3|-878345903",
          "pixelWidth": 700,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897486CXM-Framework.jpg"
        },
        {
          "pixelHeight": 375,
          "diffbotUri": "image|3|-1729707743",
          "pixelWidth": 500,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897666Fotolia_57724999_Subscription_Monthly_S.jpg"
        },
        {
          "pixelHeight": 360,
          "diffbotUri": "image|3|805836010",
          "pixelWidth": 320,
          "url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897716cordova_bot.png"
        }
      ],

如果您没有从 URL 中获得相同的结果,您始终可以定义一个自定义规则集来获取它们。我这里写了一些提取重复数据的教程,这里也有一些提示。

能否给我们提供导致 API 无法返回所有图像的文章的 URL?也许我们可以通过查看问题的根源来共同解决问题。

于 2014-09-21T18:59:44.493 回答