我怎样才能在 PHP 中获得任何 URL 的摘要?总而言之,我的意思类似于 Google 网络搜索结果中的 URL 描述。
这可能吗?是否已经有某种工具可以插入,这样我就不必生成自己的摘要了?
如果可能,我不想使用元数据描述。
-迪伦
在 Google 中显示的是(通常)META 描述标签。如果您不想使用它,您可以使用页面标题来代替。
如果您不想使用元数据描述(顺便说一句,这正是它们的用途),那么您有很多研究和工作要做。本质上,您必须猜测页面的哪一部分是内容,哪一部分只是导航/绒毛。确实,谷歌就是这样。但是请注意,从无用的绒毛中提取有价值的信息是他们的第一能力,并且他们已经研究和改进了十年。
当然,您可以做出有根据的猜测(例如,“查找具有 ID 或类的元素maincontent
”并从中获取第一段),也许会没问题。真正的问题是,您希望结果有多好?(Facebook 也有类似的网站链接,有时摘要只是坚持广告是主要内容)。
下面将允许您解析页面title
标签的内容。注意: php 必须配置为允许file_get_contents
检索 URL。否则,您将不得不使用curl
来检索页面 HTML。
$title_open = '<title>';
$title_close = '</title>';
$page = file_get_contents( 'http://www.domain.com' );
$n = stripos( $page, $title_open ) + strlen( $title_open );
$m = stripos( $page, $title_close);
$title = substr( $page, n, m-n );
虽然我讨厌推广服务,但我发现了这一点:
嵌入
它有一个 API,它返回一个包含所有你需要的数据的 JSON。
但我仍在寻找一个免费/开源库来做同样的事情。