python - 从解析的网页中提取 Python 文本

Question

我正在开发一个用于从网页中提取内容的小型系统（我知道它已经完成，但这是一个很好的练习，也是我需要的东西）。基本上，我希望提取内容内容，即如果它是一篇文章，我只想要文章文本而不是其他任何内容。

我才刚刚开始，所以把我当作一个愚蠢的白板。我对你如何做到这一点很感兴趣，以及用什么，特别是在 python 中，但我会对任何感兴趣

编辑：

我发现这很有启发性，并且更符合我正在尝试做的事情，因此对“这类事情”的解决方案、讨论和库建议表示赞赏。

score 1 · Accepted Answer

我已经做了一点，我推荐Mechanize和BeautifulSoup的组合。

我建议用漂亮的汤来解析 HTML 树，并寻找一个独特的标签来识别内容，也许：

<div id="article">

然后你可以从“汤”中取出那个节点。

1 回答 1