0

我有兴趣在我当前存储在 (nx1) 数据帧中的多个链接 (n) 上运行 Python Library Newspaper 中的 article.text()(我们称之为数据帧 df)。然后我想将结果存储在 df 的另一列中。

这是我目前编写的代码:

功能:

def newspaper_analysis(row):
    url = row
    article = Article(url)
    article.download()
    article.parse()
    text = article.text
    return text

将其应用于数据框:

df['text'] = df.apply(newspaper_analysis)

我认为问题在于“url = row”这一行,但我不确定。如果您可以建议如何通过 pandas DataFrame 编写循环,从中提取值(一个 url 链接),然后将该链接传递给报纸分析函数,我将不胜感激。

4

1 回答 1

1

假设您在数据框中的列名是“ArticleUrl”。然后使用 -

df['text'] = df['ArticleUrl'].apply(newspaper_analysis)
于 2018-03-27T04:01:09.870 回答