问题标签 [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2814 浏览

python - 如何修复某些 URL 的 Newspaper3k 403 客户端错误?

我正在尝试使用 googlesearch 和报纸 3k python 包的组合来获取文章列表。使用 article.parse 时,我最终得到一个错误:paper.article.ArticleException: Article download()failed with 403 Client Error: Forbidden for url: https://www.newsweek.com/donald-trump-hillary-clinton-2020- URL https://www.newsweek.com/donald-trump-hillary-clinton-2020-rally-orlando-1444697上的 rally-orlando-1444697

我尝试在执行脚本时以管理员身份运行,并且在浏览器中直接打开时链接有效。

这是我的代码:

这是我的完整错误输出:

我希望它只输出文章的文本。你能提供的任何帮助都会很棒。谢谢!

0 投票
0 回答
67 浏览

python-3.x - 为什么即使我将所有文章标题都附加到列表并将列表转换为 DF,我的数据框还是空的?

我正在尝试从报纸网站 Khaleej Times ( https://www.khaleejtimes.com ) 上刮下新闻文章的标题并将它们存储在 CSV 文件中

顺序如下:我刮掉它们(理论上),打印出来(冗余和浪费时间,我知道),将它们附加到列表中,打印出列表(只是为了检查列表是否真的有任何东西),将列表转换为 Pandas 数据框,最后将数据框转换为 CSV 文件

但是,每次我运行代码时,列表中都没有附加任何内容,因此我的 DataFrame 和 CSV 文件为空。有时会出现一两个文章标题,但大多数时候它是空的。

注意:我唯一感兴趣的是文章标题,而不是文本

我有更多关于此任务的问题,但我会将它们保存到单独的帖子中

我尝试的一件事是从 URL 中删除 HTTPS 并使其成为 HTTP 以及摆脱 www。如果有的话,那并没有太大的作用

我希望 print(TitleDF) 的输出是两列:一列带有索引 (0, 1, 2... n) 和 Titles (专门的文章标题)。

然而,有几次,要么是重复了几个标题,要么是很少的标题,而且大多数情况下根本没有标题。

我究竟做错了什么?据我所知,这不是语法错误

0 投票
0 回答
305 浏览

python - Newspaper3k 图书馆 - 在付费墙后面刮擦

如果您有订阅,有没有办法使用 Newspaper3k 库在付费墙后面刮擦?

由于我们无法直接访问 URL 请求方法,因此我不确定我们如何才能传递会话 cookie。有没有办法,也许更好,来做到这一点?

0 投票
1 回答
144 浏览

flask - 带有报纸库的弹性 beanstack 中缺少临时文件夹

每隔一段时间,我的部署服务器上的临时文件夹似乎就会丢失。我在 AWS 弹性豆茎上使用 Flask 和 Newspaper。我正在使用报纸库从外部 url 中抓取元标记。

服务器错误:{'code_content': 500, 'error': "[Errno 2] No such file or directory: '/tmp/.newspaper_scraper/article_resources'"}

重启服务器后一切正常。是否有可能解决此问题的配置设置?

0 投票
0 回答
49 浏览

heroku - 报纸文章 ArticleException

当我在本地测试我的 API 的不同请求时它可以工作,但是当我在 Heroku 上托管它时出现错误:

在此处输入图像描述

0 投票
1 回答
740 浏览

python - 使用 Python 中的 NewsPaper 库将新闻文章抓取到一个列表中?

亲爱的 Stackoverflow 社区!

我想从 CNN RSS 提要中抓取新闻文章并获取每篇抓取文章的链接。这与 Python NewsPaper 库配合得很好,但不幸的是,我无法获得可用格式的输出,即列表或字典。

我想将抓取的链接添加到一个 SINGLE 列表中,而不是许多单独的列表中。

输出如下:

我想要一个包含所有链接的列表,即:

我尝试通过 for 循环附加内容,如下所示:

但是输出是这样的:

有谁知道另一种方法,如何将内容放入一个列表中?或者一个字典如下:

非常感谢您的帮助!!

0 投票
1 回答
560 浏览

python - 使用 Python 中的 NewsPaper 库将多个新闻文章源抓取到一个列表中?

亲爱的 Stackoverflow 社区!

这是关于我在此处发布的上一个问题的后续问题。

我想将带有 NewsPaper 库的新闻报纸 URL 从多个来源中提取到一个列表中。这对一个来源很有效,但是一旦我添加了第二个来源链接,它就只提取第二个来源的 URL。

输出如下,仅附加了来自第二个来源的链接:

我希望将两个来源的所有 URL 提取到列表中。有谁知道这个问题的解决方案?非常感谢您提前!!

0 投票
2 回答
204 浏览

python - Python Newspaper 函数在循环期间未读取文章 URL?

如果这是一个愚蠢的问题,我深表歉意——我是 Python 新手,并且更熟悉 excel VBA。

我试图让 Python 循环遍历 Excel 文档中的多个文章 URL,并创建各种 URL 的摘要。目标是将文章标题、摘要和 URL 导出到新的 Excel(或不同的选项卡)。(最终目标是搜集相关新闻并进行总结,但我正在努力实现这一目标!)

但是,我在让 Newspaper Article 函数读取从我创建的列表中传递的 URL 时遇到问题。当我打印 URL 时,它看起来就像我刚刚复制粘贴并设置 url = '复制粘贴的值'。但是,当我在该 URL 上运行“文章”功能时,它似乎没有正确读取 URL。它们作为字符串存储在列表中。不知道我可能做错了什么。任何帮助,将不胜感激!!

我从 python 得到以下输出:

它似乎没有打印文章,而是在 URL 上出错。

有什么见解吗?提前致谢!!

0 投票
1 回答
795 浏览

python - python 抓取新闻文章时出现 ArticleException 错误

我正在尝试通过某些关键字在网络上抓取新闻文章。我使用 Python 3。但是,我无法从报纸上获得所有文章。在csv文件中抓取一些文章作为输出后,我收到ArticleException错误。谁能帮我解决这个问题?理想情况下,我想解决问题并从报纸网站下载所有相关文章。否则,跳过显示错误的 URL 并从下一个继续继续也是有用的。在此先感谢您的帮助。

这是我正在使用的代码:

这是我得到的错误:

0 投票
0 回答
48 浏览

python - python 抓取新闻文章中的 HTTPError 错误

我正在尝试从新闻网站上抓取与冠状病毒相关的文章。但是,我得到HTTPError错误。其他新闻门户网站也会出现同样的错误。该代码适用于不同的网站。我在这篇文章中用类似的代码问了一个不同的问题。以前对类似问题的一些答案要求更改,但与 URL 一起user-agent插入后仍然无法正常工作。headers = {'User-Agent': 'Mozilla/5.0'}这可能是因为我没有正确使用代码。任何帮助将非常感激。

这是我使用的代码:

这是我得到的错误: