问题标签 [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
826 浏览

python - python报纸模块-从文章中获取所有图像

通过使用python 的报纸模块,我可以通过以下方式从文章中获取顶部图像:

但我需要获取文章中的所有图像。他们的 github 文档说:“从 html 中提取所有图像”是可能的。但我无法弄清楚这一点。而且我不想手动下载html文件并将其保存在硬盘驱动器中,然后将文件提供给模块并获取图像。

我可以通过什么方式实现这一目标?

0 投票
0 回答
319 浏览

python-3.x - 如何将报纸库用于需要身份验证的网站?

如何将报纸库用于需要身份验证的网站?我正在使用报纸 3k库从不同的新闻网站下载几篇文章的 html(到目前为止工作得很好)。但是,由于我需要完整的内容,我需要在请求 html 之前进行身份验证(用户名、密码)。我将不胜感激任何正确方向的指示!

我认为这必须在我使用报纸.build() 之前发生?

(此时我只想说,这是我第一次用 python 编码(或者只是一般地编码任何东西)所以任何帮助都会很棒)

0 投票
2 回答
92 浏览

python - 我正在尝试从 python 中的网站中提取数据

函数 convert() 遍历一个 url 列表并处理它们中的每一个。每个 url 都是文章的链接。我正在获取文章的重要属性,例如作者、文本等,然后将其存储在数据框中。之后,我将数据框转换为 csv 文件。该脚本运行了大约 5 个小时,因为 url_list 中有 589 个 url。但我仍然无法获取 csv 文件。有人可以找出我哪里出错了。

0 投票
1 回答
366 浏览

python - 如何使用报纸3k重读网站上的新闻

我正在尝试创建一个数据集来对新闻文章进行情绪分析。我正在使用 Newspaper3k 从网站上抓取文章。我抓取了一些网站,但没有正确存储文章,因此我无法使用它们。当我再次尝试抓取相同的网站时,它只会抓取新文章,而不是已经抓取的文章。有没有办法让我把已经刮过的文章刮一遍??

0 投票
0 回答
308 浏览

python - Newspaper3k 语法错误或错误的 python 版本?

我正在尝试使用报纸 3k,并按照所有步骤进行安装。一切都在本地工作。当我推送到我的 Azure 应用服务时,我收到以下错误。我在 Azure 上的 python 版本是 3.6.4.4。有什么建议么?

更新一

提要解析器==5.2.1

0 投票
1 回答
159 浏览

python-3.x - 在另一个函数中调用函数时出错

我有功能newspaper3k提取给定网址的摘要。给定为:-

我有熊猫数据框,其列名为url

还有另一个函数main_code()运行得非常好,我在里面使用article_summary。我想将这两个函数都添加article_summarymain_code()一个函数final_code中。

这是我的代码:第一个功能为:-

这是第二个功能

当我完成时:

final_code()没有给出任何输出,它显示为TypeError: article_summary() missing 1 required positional argument: 'row'

0 投票
2 回答
1170 浏览

python - 如何访问报纸3k中的缓存文章

报纸是一个很棒的库,它允许抓取网络数据,但是我对文章缓存有点困惑。它缓存文章以加快操作,但我如何访问这些文章?

我有这样的东西。现在,当我使用同一组文章两次运行此命令时,我None第二次获得了返回类型。如何访问那些以前缓存的文章进行处理?

newspaper_articles = [Article(url) for url in links]

0 投票
2 回答
850 浏览

python - 报纸(python)获取所有cnn新闻网址

例如在这个 url ( https://edition.cnn.com/search/?q=%20news&size=10&from=5540&page=555 )

在 html 文件中我可以找到这个链接(html 标签)

但在这段代码中

我找不到新闻链接

https://edition.cnn.com/search/?q=%20news&size=10&from=5540&page=555 https://edition.cnn.com/search/?q=%20news&size=10&from=5550&page=556

获取相同的链接

0 投票
0 回答
133 浏览

python - 报纸(python)获取所有cnn新闻列表

在这个网址(https://edition.cnn.com/search/?q=%20news&size=10&from=5540&page=555

我的目的是获取所有新闻列表

在 urls html code(contain news的 url 中)

无法获取 url 的新闻列表

https://edition.cnn.com/search/?q=%20news&size=10&from=5550&page=556 `s 链接

https://edition.cnn.com/search/?q=%20news&size=10&from=5560&page=557 `s 链接是一样的

我的源代码

0 投票
1 回答
1885 浏览

python - 无法使用报纸3k 下载文章

我什至尝试过pypi.org中的命令,但没有下载任何文章。

article.html 只给出空刺''。当我尝试 article.parse() 它给出错误 *

你必须先download()写一篇文章!

我已经尝试过解决方法

仍然无法解决问题。