我正在使用 Diffbot 的文章 API 从任何站点抓取文章。目前我正在获取带有单个图像的文章,但我想抓取特定文章的所有图像。任何建议将不胜感激。
问问题
211 次
1 回答
2
Article API 应该默认抓取一篇文章中的所有图片。这是我在这篇文章上运行 Article API 时在“图像”数组中得到的内容:
"images": [
{
"pixelHeight": 106,
"diffbotUri": "image|3|-317133287",
"primary": true,
"pixelWidth": 474,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897265phpstormlogo.jpg"
},
{
"pixelHeight": 375,
"diffbotUri": "image|3|-2098856075",
"pixelWidth": 500,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897372Spear_point_knife_blade.jpg"
},
{
"pixelHeight": 525,
"diffbotUri": "image|3|-878345903",
"pixelWidth": 700,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897486CXM-Framework.jpg"
},
{
"pixelHeight": 375,
"diffbotUri": "image|3|-1729707743",
"pixelWidth": 500,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897666Fotolia_57724999_Subscription_Monthly_S.jpg"
},
{
"pixelHeight": 360,
"diffbotUri": "image|3|805836010",
"pixelWidth": 320,
"url": "http://dab1nmslvvntp.cloudfront.net/wp-content/uploads/2014/09/1410897716cordova_bot.png"
}
],
如果您没有从 URL 中获得相同的结果,您始终可以定义一个自定义规则集来获取它们。我这里写了一些提取重复数据的教程,这里也有一些提示。
能否给我们提供导致 API 无法返回所有图像的文章的 URL?也许我们可以通过查看问题的根源来共同解决问题。
于 2014-09-21T18:59:44.493 回答