1

一些浏览器插件,例如可读性,可以从网页中提取“文章”。有谁知道如何做到这一点?真正的文章和广告或评论有什么区别?

4

1 回答 1

1

好吧,这取决于您要如何定义“真实文章”...

考虑到 HTML5,网页是由语义标签构成的。页面不再需要使用<div>完全没有语义意义的元素来构建。在 HTML5中,您可以使用<section>,<article><header> 这些元素可以让应用程序很好地了解网页的主要内容是什么(例如 print<article>和 skip <nav>......)

当然,目前还没有多少页面使用这些标签。此外,标签可能会被滥用并失去其意义。在那种情况下,我会坚持一些统计数据,例如选择 HTML 文档中最大的元素。此外,如果您必须抓取网页,您可以使用一些模式匹配算法的修改,例如 DIPRE。

于 2012-09-13T19:16:51.693 回答