我一直在尝试从网页(在线时代,德国报纸)中提取多篇文章,为此我有一个我想从中下载文章的网址列表,因此我不需要抓取网页的网址。
python 的报纸包在解析单个页面的内容方面做得非常好。我需要做的是自动更改网址,直到下载所有文章。不幸的是,我的编码知识有限,还没有找到办法。如果有人可以帮助我,我将不胜感激。
我尝试的其中一件事是:
import newspaper
from newspaper import Article
lista = ['url','url']
for list in lista:
first_article = Article(url="%s", language='de') % list
first_article.download()
first_article.parse()
print(first_article.text)
it returned the following error: unsupported operand type for %:'article' and 'str'
这似乎可以完成这项工作,尽管我希望有一种更简单的方法,涉及更少的苹果和香蕉。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import newspaper
from newspaper import Article
lista = ['http://www.zeit.de/1946/01/unsere-aufgabe', 'http://www.zeit.de/1946/04/amerika-baut-auf', 'http://www.zeit.de/1946/04/bedingung', 'http://www.zeit.de/1946/04/bodenrecht']
apple = 0
banana = lista[apple]
while apple <4 :
first_article = Article(url= banana , language='de')
first_article.download()
first_article.parse()
print(first_article.text).encode('cp850', errors='replace')
apple += 1
banana = lista[apple]