当我们用谷歌搜索某些东西时,它会返回文档。现在,据我所知,文档是带有标签的 html 页面。从我的解析经验来看,html 页面的结构化可能会有所不同,而且变化很大,有些页面设计得很好,每个 div 都以结构化的方式标识,而其他页面则一团糟。谷歌索引了数以百万计的文档,它如何提取相关的文本正文,并向我们展示文本文档的起始部分?
问问题
92 次
1 回答
1
http://www.google.com/intl/en-GB/insidesearch/howsearchworks/crawling-indexing.html
谷歌很好地介绍了他们是如何做到的。我确信他们有一些非常严格的解析例程来处理各种 HTML,无论是错误还是其他。谷歌上的“HTML 解析”将是一个很好的起点。
于 2013-09-28T17:06:00.830 回答