0

这是关于报纸3k图书馆的作者功能。我有这个新闻 URL 列表。>>>> article.authors”有时没有选择作者。一个例子在这里:作者失踪

4

1 回答 1

0

Newspaper3k使用PythonBeautiful Soup来提取项目,例如来自新闻网站的作者姓名。Newspaper3k查询的标签是在Newspaper3k源代码中预定义的。Newspaper3k尽最大努力从新闻网站上的这些标准标签中提取内容。

并非所有新闻来源的结构都相同,因此Newspaper3k会遗漏某些内容,因为标签(例如,作者)将在 HTML 结构中的不同位置。

例如Newspaper3k在这些标签中查找作者姓名:

VALS = ['author', 'byline', 'dc.creator', 'byl']

标签dc.creator始终位于新闻源的META标签部分。如果您的新闻来源有不同的作者标签,​​例如LA Times 使用的article.author,那么您必须像这样查询该标签:

article_meta_data = article.meta_data
article_author = {value for (key, value) in article_meta_data['article'].items() if key == 'author'}

我在我的报纸 3K 概述文档中介绍了许多这些收获问题,我已在我的Github 页面上分享了该文档。

于 2021-02-10T14:52:08.070 回答