4

我正在使用 Python Goose。您可以在此链接中找到它

我想提取发布日期,但是当我运行时:

g = Goose()
entity = g.extract(url="mylink")
date = entity.publish_date

结果我有None

我在很多网站上都试过了,结果是None

有什么建议吗?

4

2 回答 2

1

刚刚查看了源码的相关部分:crawler.py 中的publish_date提取目前被注释掉了

# TODO
# article.publish_date = config.publishDateExtractor.extract(doc)

进一步检查显示,如果您取消注释上面的行,您将能够定义您的自定义日期提取器。但是,Goose 中没有实现默认的日期提取器。请参阅此方法:set_publishdate_extractorhttps://github.com/grangier/python-goose/blob/master/goose/configuration.py

于 2013-09-17T10:26:47.827 回答
0

自 2014 年以来,此功能已在 python-goose 中实现,extractors/publishdate.py因此article.publish_date返回了一些日期。但仅当在以下元数据字段中可用时:

rnews:datePublished
article:published_time
OriginalPublicationDate
datePublished
于 2016-11-24T11:58:15.773 回答