给定一个包含大量文本的 HTML 页面,我想识别并解析出主要内容。
以http://www.fivethirtyeight.com/2009/08/chavismo-obama-and-monroe-doctrine.html为例,我想识别 div#post-4438372351887392855,其中包含标题和文章。
我知道没有什么是完美的或 100% 的时间,但是有没有一种方法可以在合理数量的情况下给我想要的结果?
我目前的想法是遍历每个 div,剥离标记,然后找到包含最多文本的最里面的 div。
在这一点上,我才刚刚开始,所以寻找我可以投入概念性方法的输入。或者,如果有什么东西,开源库会很好。
提前感谢您的见解。