这是关于报纸3k图书馆的作者功能。我有这个新闻 URL 列表。>>>> article.authors”有时没有选择作者。一个例子在这里:作者失踪
问问题
97 次
1 回答
0
Newspaper3k使用Python包Beautiful Soup来提取项目,例如来自新闻网站的作者姓名。Newspaper3k查询的标签是在Newspaper3k源代码中预定义的。Newspaper3k尽最大努力从新闻网站上的这些标准标签中提取内容。
但并非所有新闻来源的结构都相同,因此Newspaper3k会遗漏某些内容,因为标签(例如,作者)将在 HTML 结构中的不同位置。
例如Newspaper3k在这些标签中查找作者姓名:
VALS = ['author', 'byline', 'dc.creator', 'byl']
标签dc.creator始终位于新闻源的META标签部分。如果您的新闻来源有不同的作者标签,例如LA Times 使用的article.author,那么您必须像这样查询该标签:
article_meta_data = article.meta_data
article_author = {value for (key, value) in article_meta_data['article'].items() if key == 'author'}
我在我的报纸 3K 概述文档中介绍了许多这些收获问题,我已在我的Github 页面上分享了该文档。
于 2021-02-10T14:52:08.070 回答