2

我正在开发一个用于从网页中提取内容的小型系统(我知道它已经完成,但这是一个很好的练习,也是我需要的东西)。基本上,我希望提取内容内容,即如果它是一篇文章,我只想要文章文本而不是其他任何内容。

我才刚刚开始,所以把我当作一个愚蠢的白板。我对你如何做到这一点很感兴趣,以及用什么,特别是在 python 中,但我会对任何感兴趣

编辑:

我发现很有启发性,并且更符合我正在尝试做的事情,因此对“这类事情”的解决方案、讨论和库建议表示赞赏。

4

1 回答 1

1

我已经做了一点,我推荐MechanizeBeautifulSoup的组合。

我建议用漂亮的汤来解析 HTML 树,并寻找一个独特的标签来识别内容,也许:

<div id="article">

然后你可以从“汤”中取出那个节点。

于 2012-08-31T13:11:24.810 回答