我正在寻找一种方法来从带有大量链接(可能还有文本)的网页中提取用于导航的菜单。我感兴趣的页面是非常简单、有效的 XHTML,并且可以安全地假设菜单位于页面的开头或结尾。但是到目前为止,我一直没有找到一个好的、通用的方法来找到它的确切位置——我希望你能帮助我解决这个问题。
快速说明:我不是在寻找诸如可读性之类的东西 - 找到主要文章并删除其他所有内容,而是寻找专门找到菜单的东西。此外,“找到一个有很多链接作为继任者的元素”的幼稚方法也不能很好地工作——因为我倾向于包含相当长的链接列表的页面。
编辑:我需要菜单来获取其中链接的页面的内容(我为信息提取项目构建了一个网络抓取工具)。我使用的一些示例页面:
- http://p2.cs.berkeley.edu/
- http://www.cs.cornell.edu/bigreddata/maybms/(注意:这里我需要指向出版物/下载的菜单而不是侧边栏导航,但是使用诸如可读性之类的东西更容易摆脱侧边栏导航) .