1

给定一个包含大量文本的 HTML 页面,我想识别并解析出主要内容。

http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html为例,我想识别 div#post-4438372351887392855,其中包含标题和文章。

我知道没有什么是完美的或 100% 的时间,但是有没有一种方法可以在合理数量的情况下给我想要的结果?

我目前的想法是遍历每个 div,剥离标记,然后找到包含最多文本的最里面的 div。

在这一点上,我才刚刚开始,所以寻找我可以投入概念性方法的输入。或者,如果有什么东西,开源库会很好。

提前感谢您的见解。

4

2 回答 2

1

arc90 的一些人用他们的可读性小书签在这方面做了非常令人印象深刻的工作。它似乎在查找“主要”内容方面做得很好——在您列出的页面上完美运行。
您可以查看他们注释良好的 javascript(链接到书签中),但您可能需要联系开发人员以获取他们的想法和使用它们的权限。

于 2009-08-03T04:49:12.747 回答
1

用于主要内容提取的最完整的资源编译列表是:

  1. 从 html 文档中提取文章文本
  2. 资源列表:从html文档中提取文章文本

还请查看评论,因为有额外的提示。

于 2011-12-29T18:52:47.933 回答