我正在尝试创建一个在博客文章上运行良好的通用 HTML 解析器。我想将我的解析器指向特定条目的 URL 并取回帖子本身的干净文本。我的基本方法(来自 python)是使用 BeautifulSoup / Urllib2 的组合,这没关系,但它假设您知道博客条目的正确标签。有没有人有更好的想法?
这里有一些想法,也许有人可以扩展,我还没有足够的知识/诀窍来实施。
unix 程序“lynx”似乎特别擅长解析博客文章——他们使用什么解析器,或者如何使用它?
是否有任何服务/解析器可以自动删除垃圾广告等?
在这种情况下,我有一个模糊的概念,即博客文章通常包含在具有 class="entry" 或类似内容的某个定义标签中可能是一个可以接受的假设。因此,有可能创建一个算法来找到它们之间具有最干净文本的封闭标签 - 对此有什么想法吗?
谢谢!