我正在使用 Python Goose。您可以在此链接中找到它
我想提取发布日期,但是当我运行时:
g = Goose()
entity = g.extract(url="mylink")
date = entity.publish_date
结果我有None
我在很多网站上都试过了,结果是None
有什么建议吗?
刚刚查看了源码的相关部分:crawler.py 中的publish_date提取目前被注释掉了
# TODO
# article.publish_date = config.publishDateExtractor.extract(doc)
进一步检查显示,如果您取消注释上面的行,您将能够定义您的自定义日期提取器。但是,Goose 中没有实现默认的日期提取器。请参阅此方法:set_publishdate_extractor
在https://github.com/grangier/python-goose/blob/master/goose/configuration.py
自 2014 年以来,此功能已在 python-goose 中实现,extractors/publishdate.py
因此article.publish_date
返回了一些日期。但仅当在以下元数据字段中可用时:
rnews:datePublished
article:published_time
OriginalPublicationDate
datePublished