python - 使用 Python 从 Web 文章中查找结构

Question

我正在寻找一些 Python 工具，它可以帮助我从文章网站（例如http://www.bbc.co.uk/ ）确定内容结构。我使用样板删除库 - Boilerpipe 来清除网页上不需要的东西（横幅、链接、图片等）。现在当我只有相关内容时，我想自动确定什么字符串是标题，作者，日期，文章更新日期，文章本身是什么。问题是，我不仅要将它用于透明文章页面，其中大部分信息都包含在 HTML 标记中，例如<title>Title</title>. 我希望能够从<div>28.11.2011<p>John Cusack on Syria conflict</div>. 有什么工具可以帮助我吗？

score 0 · Accepted Answer

0

刮痧不是为了那种东西吗？http://scrapy.org/

于 2013-02-28T13:44:54.190 回答

score 0 · Accepted Answer

您可以使用以下“工具”轻松从文章中获取内容：

scrapy（推荐，但有更大的学习曲线）
报纸（立即为您提供标题、作者、文本、图像、视频等）
goose-extractor （就像报纸）

python - 使用 Python 从 Web 文章中查找结构

2 回答 2

Related

Reference