我正在开发一个用于从网页中提取内容的小型系统(我知道它已经完成,但这是一个很好的练习,也是我需要的东西)。基本上,我希望提取内容内容,即如果它是一篇文章,我只想要文章文本而不是其他任何内容。
我才刚刚开始,所以把我当作一个愚蠢的白板。我对你如何做到这一点很感兴趣,以及用什么,特别是在 python 中,但我会对任何感兴趣
编辑:
我发现这很有启发性,并且更符合我正在尝试做的事情,因此对“这类事情”的解决方案、讨论和库建议表示赞赏。
我正在开发一个用于从网页中提取内容的小型系统(我知道它已经完成,但这是一个很好的练习,也是我需要的东西)。基本上,我希望提取内容内容,即如果它是一篇文章,我只想要文章文本而不是其他任何内容。
我才刚刚开始,所以把我当作一个愚蠢的白板。我对你如何做到这一点很感兴趣,以及用什么,特别是在 python 中,但我会对任何感兴趣
编辑:
我发现这很有启发性,并且更符合我正在尝试做的事情,因此对“这类事情”的解决方案、讨论和库建议表示赞赏。
我已经做了一点,我推荐Mechanize和BeautifulSoup的组合。
我建议用漂亮的汤来解析 HTML 树,并寻找一个独特的标签来识别内容,也许:
<div id="article">
然后你可以从“汤”中取出那个节点。