0

寻找一种方法(客户端或服务器端)来检测网页的实际内容部分并删除其页眉、页脚和导航。类似于亚马逊的 Firefox 的“发送到 Kindle”插件的工作方式。该解决方案可以是客户端 (JavaScript) 或服务器端。我知道它不可能是 100% 可靠的解决方案,但我想知道是否有人已经使用过库/算法来解决此类问题。

4

1 回答 1

1

要么检查哪个<div>标签的内容最多(真的不可靠),要么列出主要网站用来标记其主要内容标记并将它们保存在数据库中的所有类名/ id。您应该能够处理几千行,然后使用 DOM 解析页面以检查类名是否可用。

这可能不是最快的解决方案,但您可以加快速度,如果您映射某些站点,您就会知道它们使用哪些类名。

编辑: 您仍然需要改进您的算法。例如:

  • 您如何处理存在的多个存储的类名
  • 如果没有,你会怎么做(显示整个页面?,只显示最大的 div?

于 2013-06-07T07:29:01.047 回答