我有一堆新闻文章的 csv,我希望使用报纸 3k 包从这些文章中提取正文并将它们保存为 txt 文件。我想创建一个脚本,它遍历 csv 中的每一行,提取 URL,从 URL 中提取文本,然后将其保存为唯一命名的 txt 文件。有谁知道我该怎么做?我是一名刚接触 Python 的记者,如果这很简单,我很抱歉。
我只有下面的代码。在弄清楚如何将每个正文文本保存为 txt 文件之前,我想我应该尝试让脚本打印 csv 中每一行的文本。
import newspaper as newspaper
from newspaper import Article
import sys as sys
import pandas as pd
data = pd.read_csv('/Users/alexfrandsen14/Desktop/Projects/newspaper3k-
scraper/candidate_coverage.csv')
data.head()
for index,row in data.iterrows():
article_name = Article(url=['link'], language='en')
article_name.download()
article_name.parse()
print(article_name.text)