0

我正在寻找一些 Python 工具,它可以帮助我从文章网站(例如http://www.bbc.co.uk/ )确定内容结构。我使用样板删除库 - Boilerpipe 来清除网页上不需要的东西(横幅、链接、图片等)。现在当我只有相关内容时,我想自动确定什么字符串是标题,作者,日期,文章更新日期,文章本身是什么。问题是,我不仅要将它用于透明文章页面,其中大部分信息都包含在 HTML 标记中,例如<title>Title</title>. 我希望能够从<div>28.11.2011<p>John Cusack on Syria conflict</div>. 有什么工具可以帮助我吗?

4

2 回答 2

0

刮痧不是为了那种东西吗?http://scrapy.org/

于 2013-02-28T13:44:54.190 回答
0

您可以使用以下“工具”轻松从文章中获取内容:

  1. scrapy(推荐,但有更大的学习曲线)
  2. 报纸(立即为您提供标题、作者、文本、图像、视频等)
  3. goose-extractor (就像报纸)
于 2014-11-26T23:49:56.203 回答