1

我正在尝试从新闻机构抓取文章,但我不知道如何使用 python-goose 获取文章的作者。我已经阅读了文档、源代码并搜索了谷歌。

from goose import Goose

def getArticle(url):
    g = Goose()
    article = g.extract(url=url)
    print article.title
    # print article.author
    # print article.writer

那么,有没有一种内置的方法可以使用 python-goose 提取文章的作者?

python-goose 代码和文档链接:http: //github.com/grangier/python-goose

4

2 回答 2

2

他们的文档中

Goose 将尝试提取以下信息:

  • 一篇文章的主要内容
  • 文章主图
  • 文章中嵌入的任何 Youtube/Vimeo 电影
  • 元描述
  • 元标签

他们不承诺得到作者;您将需要查看元数据以查看它是否包含并手动提取它。

于 2014-01-12T19:15:17.920 回答
0

报纸可以满足您的要求。

这是用法:>>> article.authors [u'Leigh Ann Caldwell', 'John Honway']

您可以从其文档或 Github 中找到更多详细信息。 http://newspaper.readthedocs.org/en/latest/

它非常简单而强大。

于 2015-08-18T18:57:13.250 回答