问题标签 [python-newspaper]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

105 问题

0 投票

1 回答

826 浏览

python - python报纸模块-从文章中获取所有图像

通过使用python 的报纸模块，我可以通过以下方式从文章中获取顶部图像：

但我需要获取文章中的所有图像。他们的 github 文档说：“从 html 中提取所有图像”是可能的。但我无法弄清楚这一点。而且我不想手动下载html文件并将其保存在硬盘驱动器中，然后将文件提供给模块并获取图像。

我可以通过什么方式实现这一目标？

python django web-scraping python-newspaper

2018-06-05T19:21:09.653

0 投票

0 回答

319 浏览

python-3.x - 如何将报纸库用于需要身份验证的网站？

如何将报纸库用于需要身份验证的网站？我正在使用报纸 3k库从不同的新闻网站下载几篇文章的 html（到目前为止工作得很好）。但是，由于我需要完整的内容，我需要在请求 html 之前进行身份验证（用户名、密码）。我将不胜感激任何正确方向的指示！

我认为这必须在我使用报纸.build() 之前发生？

（此时我只想说，这是我第一次用 python 编码（或者只是一般地编码任何东西）所以任何帮助都会很棒）

python-3.x python-newspaper

2018-06-11T14:27:50.977

0 投票

2 回答

92 浏览

python - 我正在尝试从 python 中的网站中提取数据

函数 convert() 遍历一个 url 列表并处理它们中的每一个。每个 url 都是文章的链接。我正在获取文章的重要属性，例如作者、文本等，然后将其存储在数据框中。之后，我将数据框转换为 csv 文件。该脚本运行了大约 5 个小时，因为 url_list 中有 589 个 url。但我仍然无法获取 csv 文件。有人可以找出我哪里出错了。

python dataframe web-scraping python-newspaper

2018-06-12T09:37:16.710

0 投票

1 回答

366 浏览

python - 如何使用报纸3k重读网站上的新闻

我正在尝试创建一个数据集来对新闻文章进行情绪分析。我正在使用 Newspaper3k 从网站上抓取文章。我抓取了一些网站，但没有正确存储文章，因此我无法使用它们。当我再次尝试抓取相同的网站时，它只会抓取新文章，而不是已经抓取的文章。有没有办法让我把已经刮过的文章刮一遍？？

python nlp sentiment-analysis python-newspaper

2018-06-15T03:49:44.567

0 投票

0 回答

308 浏览

python - Newspaper3k 语法错误或错误的 python 版本？

我正在尝试使用报纸 3k，并按照所有步骤进行安装。一切都在本地工作。当我推送到我的 Azure 应用服务时，我收到以下错误。我在 Azure 上的 python 版本是 3.6.4.4。有什么建议么？

更新一

提要解析器==5.2.1

python python-3.x python-newspaper

2018-07-05T18:14:14.637

0 投票

1 回答

159 浏览

python-3.x - 在另一个函数中调用函数时出错

我有功能newspaper3k提取给定网址的摘要。给定为：-

我有熊猫数据框，其列名为url

还有另一个函数main_code()运行得非常好，我在里面使用article_summary。我想将这两个函数都添加article_summary到main_code()一个函数final_code中。

这是我的代码：第一个功能为：-

这是第二个功能

当我完成时：

但final_code()没有给出任何输出，它显示为TypeError: article_summary() missing 1 required positional argument: 'row'

python-3.x pandas user-defined-functions python-newspaper

2018-07-13T11:35:06.537

0 投票

2 回答

1170 浏览

python - 如何访问报纸3k中的缓存文章

报纸是一个很棒的库，它允许抓取网络数据，但是我对文章缓存有点困惑。它缓存文章以加快操作，但我如何访问这些文章？

我有这样的东西。现在，当我使用同一组文章两次运行此命令时，我None第二次获得了返回类型。如何访问那些以前缓存的文章进行处理？

newspaper_articles = [Article(url) for url in links]

python python-3.x web-scraping python-newspaper

2018-07-24T11:09:39.033

0 投票

2 回答

850 浏览

python - 报纸（python）获取所有cnn新闻网址

例如在这个 url ( https://edition.cnn.com/search/?q=%20news&size=10&from=5540&page=555 )

在 html 文件中我可以找到这个链接（html 标签）

但在这段代码中

我找不到新闻链接

https://edition.cnn.com/search/?q=%20news&size=10&from=5540&page=555 https://edition.cnn.com/search/?q=%20news&size=10&from=5550&page=556

获取相同的链接

python html python-newspaper

2018-08-02T02:20:46.627

0 投票

0 回答

133 浏览

python - 报纸（python）获取所有cnn新闻列表

在这个网址（https://edition.cnn.com/search/?q=%20news&size=10&from=5540&page=555）

我的目的是获取所有新闻列表

在 urls html code(contain news的 url 中）

无法获取 url 的新闻列表

https://edition.cnn.com/search/?q=%20news&size=10&from=5550&page=556 `s 链接

https://edition.cnn.com/search/?q=%20news&size=10&from=5560&page=557 `s 链接是一样的

我的源代码

python html python-newspaper

2018-08-02T04:28:53.887

0 投票

1 回答

1885 浏览

python - 无法使用报纸3k 下载文章

我什至尝试过pypi.org中的命令，但没有下载任何文章。

article.html 只给出空刺''。当我尝试 article.parse() 它给出错误 *

你必须先download()写一篇文章！

我已经尝试过解决方法

仍然无法解决问题。

python web-scraping python-newspaper

2018-08-10T21:00:52.900

1 2 3 4 5 6 7 8 9 10