我使用这个模块:https ://github.com/codelucas/newspaper 从https://news.bitcoin.com/下载比特币文章。但是,当我尝试从下一页“ https://news.bitcoin.com/page/2/page ”获取下一篇文章时,我得到了相同的输出。任何其他页面都一样。
我尝试过使用不同的站点和不同的起始页面。我使用的第一个链接中的文章显示在所有其他链接上。
import newspaper
url = 'https://news.bitcoin.com/page/2'
btc_articles = newspaper.build(url, memoize_articles = False)
for article in btc_articles.articles:
print(article.url)