我想复制 Facebook 用来解析链接的功能。当您将链接提交到您的 Facebook 状态时,他们的系统会退出并从该页面检索一个建议title
的,summary
通常是一个或多个相关image
的 s,您可以从中选择一个缩略图。
我的应用程序需要使用 Python 来完成此任务,但我愿意接受与此相关的任何类型的指南、博客文章或其他开发人员的经验,并且可能会帮助我弄清楚如何完成它。
在加入之前,我真的很想从其他人的经验中学习。
需要明确的是,当给定网页的 URL 时,我希望能够检索:
- 标题:可能只是
<title>
标签,但可能是<h1>
,不确定。 - 页面的单段摘要。
- 一堆可以用作缩略图的相关图像。(棘手的部分是过滤掉不相关的图像,如横幅或圆角)
我可能必须自己实现它,但我至少想知道其他人是如何完成这些任务的。