html - Google 如何解析网页？

Question

当我们用谷歌搜索某些东西时，它会返回文档。现在，据我所知，文档是带有标签的 html 页面。从我的解析经验来看，html 页面的结构化可能会有所不同，而且变化很大，有些页面设计得很好，每个 div 都以结构化的方式标识，而其他页面则一团糟。谷歌索引了数以百万计的文档，它如何提取相关的文本正文，并向我们展示文本文档的起始部分？

score 1 · Accepted Answer

http://www.google.com/intl/en-GB/insidesearch/howsearchworks/crawling-indexing.html

谷歌很好地介绍了他们是如何做到的。我确信他们有一些非常严格的解析例程来处理各种 HTML，无论是错误还是其他。谷歌上的“HTML 解析”将是一个很好的起点。

html - Google 如何解析网页？

1 回答 1

Related

Reference