2

我希望我的网站能够在用户将链接粘贴到邮箱时提取有关网页的信息,类似于 Facebook。

我想知道像 Google、Reddit 和 Facebook 这样的网站如何能够仅通过一个 URL 来检索缩略图、标题和描述。

有谁知道他们是怎么做到的?

4

1 回答 1

0

基本算法相当简单:获取页面,分析内容,提取文本&图像&标题&whatever,构建预览。但是,对于特定的用例,有很多困难。菜单,横幅和添加,文本结构 - 需要非常谨慎处理的大量不同细节。AFAIK 没有算法可以在 100% 的情况下解决此任务(是的,谷歌和其他算法并不完美)。

关于 Reddit。由于它是开源的,你可以找到他们是如何做到这一点的。这是您要查找的代码: https ://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

Yandex 具有允许执行相同操作的 API。你可以在这里这里找到更多。

于 2013-05-27T15:18:34.997 回答