我想提取这篇文章和其他文章的小标题: https ://www.dr.dk/nyheder/regionale/trekanten/legos-regnskab-viser-tilbagegang
那就是:“Lego har netop præsenteret regnskabet for 2017, og kurven peger nedad。”
但是,python 模块 Newspaper 似乎不能做到这一点。
我错过了什么吗?还有其他模块可以吗?我也尝试过可读性和 html2text。
我的代码:
from newspaper import Article
url = 'https://www.dr.dk/nyheder/regionale/trekanten/legos-regnskab-viser-tilbagegang'
article = Article(url)
article.download()
article.parse()
print (article.title)
print (article.text)