3

我有一个 URL 列表,正在尝试收集它们的“描述”。通过描述,我的意思是出现了什么,例如,如果你用谷歌搜索了链接。例如,http://stackoverflow.com">Google: http://stackoverflow.com 显示描述为

面向程序员的独立于语言的协作编辑问答网站。用户投票和标签显示的问题和答案。

这是我试图为我拥有的 URL 积累的数据。

我尝试解析 URL 的元描述,但是它们中的大多数都缺少元描述(但谷歌和其他搜索引擎设法以某种方式获得描述)。

有任何想法吗?我应该只是“谷歌”每个链接并抓取数据吗?我有一种感觉,谷歌不会喜欢这样的......

多谢你们。

4

7 回答 7

1

如果/当它们缺少描述元标记时,不同的搜索引擎有不同的算法来从页面中获取描述。有些人会忽略标签,即使它在那里。

如果你想要谷歌的描述,最准确的方法是抓取它。否则,您可以编写自己的代码或在网上四处寻找代码。

于 2008-11-19T05:51:28.223 回答
1

这些被称为片段。

谷歌使用专有的(可能是专利的)方法来获取这些信息,所以没有简单的答案。

正如您所建议的,他们将使用元描述信息(如果存在)。(如何设置元信息以帮助谷歌。)

他们还将尊重页面作者包含片段的请求。(如何防止谷歌显示片段)你也应该尊重这一点(当然还有 robots.txt。)

您可能对现有的自动摘要包(例如OTS )有一些运气。

于 2008-11-19T13:09:50.413 回答
0

我不熟悉Google APIs,但也许有一种官方方法可以获取此类信息。

于 2008-11-19T06:22:32.560 回答
0

有趣的。有些来源比其他来源更好。

对于“audiotuts.com” , google的描述比AboutUs.com更糟糕。

谷歌

11 月 18 日一般 by Joel Falconer · 1. 最近,一位 AUDIOTUTS 读者问我创作过程。虽然这是一个不能变成...的话题

AboutUs.com:

AUDIOTUTS 是音乐家、制作人和音频爱好者的博客/教程网站!它是流行的 PSDTUTS、VECTORTUTS 和 NETTUTS 的姐妹网站。

我讨厌这样的问题……它们应该是微不足道的,但事实并非如此!

于 2008-11-19T06:29:32.187 回答
0

如果你能假设英文内容,你可以先找Meta Description,如果不行,你可以找前两三个类似句子的词序列。

我工作的一个产品查找第一个 P 或 DIV,其中包含多个由句点分隔的 > n 个“单词”序列。它将使用两个或三个类似句子的序列,最多 x 个单词,作为摘要段落。它不是 100% 准确,但对于一般情况来说已经足够了。字数调整了几次,以消除导航元素之类的东西。

于 2008-11-19T07:05:06.280 回答
0

您可能需要查看 AboutUs.org(即http://www.aboutus.org/StackOverflow.com)。但是,该网站几乎不可能有关于我们的页面而没有元描述。

于 2008-11-19T05:57:07.573 回答
0

一些可能解释谷歌如何做到这一点的信息:

于 2008-11-19T05:58:55.650 回答