这不是一个真正的编程问题,更像是一个算法问题。
问题:查找 HTML 页面的“内容”部分。
“内容”是指包含人类看到的页面内容的dom,没有噪音,只是“页面实际内容”。我知道问题没有明确定义,但让我们继续...例如在博客网站中,这通常很容易,当浏览到特定帖子时,您通常在页面顶部有一些工具栏,可能还有一些导航元素LHS 然后你有包含内容的 div 。试图从 HTML 中找出这一点可能很棘手。然而,幸运的是,大多数博客都有 RSS 提要,并且在此特定帖子的提要中,您会找到 <description> 部分(或 <content:encoded>),这正是您想要的。因此,为了细化内容的定义,这是页面上包含有趣部分的实际内容,删除所有广告、导航元素等。所以从博客中查找内容相对容易,假设它们有 RSS。其他支持 RSS 的网站也是如此。
新闻网站呢?在许多情况下,新闻网站都有 RSS,但并非总是如此。那么如何在新闻网站上找到内容呢?更一般的网站呢?许多网页(当然不是全部)都有内容部分和其他部分。你能想出一个好的算法来找到“有趣”的部分和不那么有趣的部分吗?也许从不变的部分改变的部分?
希望我已经说清楚了...谢谢!