我正在调查如何以“最佳和最新的方式”抓取网址。我打算从 url 中检索一张图片。首先从链接标签<link rel="image_src" href="http://stackoverflow.com/images/logo.gif" />
,然后从 og 标签......也许,如果我仍然一无所获,尝试获得第一个足够大的 img。换句话说,缩略图检索上的轻量版 facebook。
所以我在互联网上阅读东西,当我认为我找到了我需要的东西时,它似乎解决方案很旧(比如 5-6 岁http://www.lightspeedretail.com/cloud/blog/2007/08 /scraping-links-with-php/ ) :使用cURL
,DOMDocument
和XPath
基本上的解决方案。然后我只需要处理我得到的图像 url,例如以不同大小存储它的几个版本。但我对这部分很好。
会有比这个解决方案更好的东西吗?理想情况下,链接标签的示例会很棒。