问题标签 [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
639 浏览

timestamp - Python:看到报纸3k 提供的文章的时间戳?

当我做

我获得了可以使用该软件包从news_source_url(例如, )下载的文章的 URL 列表。有没有办法获取各种文章的时间戳?'http://cnn.com'newspaper3k

特别是对于 CNN,日期似乎编码在许多文章的 URL 中,但我想获取任何新闻来源的文章时间戳。如果可能的话,我想同时获得日期和时间。

0 投票
1 回答
429 浏览

python - 使用报纸3k 从新闻来源获取更多文章 URL?

当我做

我看到那家报纸从http://cnn.com找到了902篇文章,这对我来说似乎很少,考虑到他们每天发表很多文章,并且已经在网上发表了很多年的文章。这些真的是http://cnn.com上的所有文章吗?如果没有,有什么办法我也可以找到其余文章的网址吗?

0 投票
1 回答
132 浏览

python-newspaper - Newspaper3k 抓取几个网站

我想从几个网站上获取文章。我试过了,但我不知道接下来我要做什么

0 投票
1 回答
2049 浏览

python - 使用 Python 和报纸 3k 库进行 Web Scraping 不会返回数据

我已经在我的 Mac 上安装了Newspapper3kLib sudo pip3 install Newspapper3k。我正在使用 Python 3。我想返回 Article 对象支持的数据,即 url、日期、标题、文本、摘要和关键字,但我没有得到任何数据:

我得到了文章对象和 URL,但其他一切都是“”。我在不同的网站上尝试过,但结果是一样的。

然后我尝试添加:

我也尝试设置 Config 并设置 HEADERS 和 TIMEOUT,但结果是一样的。

当我这样做时,对于每个网站,我只得到 16 篇带有日期、标题和正文值的文章。这对我来说很奇怪,对于每个网站,我得到相同数量的数据,但对于超过 95% 的新闻文章,我得到的数据都没有。

美丽的汤可以帮助我吗?

有人可以帮助我了解问题所在,为什么我得到这么多 Null/Nan/"" 值,我该如何解决?

这是 lib 的文档:

https://newspaper.readthedocs.io/en/latest/

0 投票
0 回答
85 浏览

python - Pycharm:ModuleNotFoundError:没有名为“newspaper”的模块。Jupyter Notebook 没有问题

正如标题所暗示的那样。它甚至不是我可以安装的模块,因为它是 Python 3 的一部分,而且我在 Jupyter Notebook 中使用它没有任何问题。

我试图将 Python 解释器从 3.8 切换到 3.6,但无济于事。

任何意见,将不胜感激。

0 投票
0 回答
147 浏览

r - 使用带闪亮的网状时出错

我正在尝试在闪亮的应用程序中使用 python 包从网页中提取主文本:https ://newspaper.readthedocs.io/en/latest/

我所说的正文是文章的正文,没有任何添加、链接等……(非常类似于 iphone 上 safari 中的“读者视图”)。

据我所知,中没有类似的包r,如果你知道,请告诉我。

这个应用程序的目标是允许用户插入一个网址,单击提交并获得干净的文本作为输出。

请找到下面的代码以及错误消息。我正在使用 rstudio 云。

这是错误:

这是代码:

0 投票
3 回答
168 浏览

python - 新闻抓取日期

我正在尝试从https://finansial.bisnis.com/read/20210506/90/1391096/laba-bank-mega-tumbuh-dua-digit-kuartal-i-2021-ini-penopangnya. 我正在尝试抓取新闻的日期,这是我的代码:

但我收到了这个错误:

我的假设是因为Mei是印度尼西亚语,同时格式需要May是英语。怎么变MeiMay?我已经尝试过dates = dates.replace('Mei', 'May'),但它对我不起作用。当我尝试它时,我得到了错误ValueError: unconverted data remains: 日期的类型是string。谢谢

0 投票
1 回答
77 浏览

python - 报纸示例中的作者提取不起作用

我正在尝试使用报纸 3k 从包含没有运气的演讲的网页中提取演讲者姓名。按照包的文档,article.authors似乎总是返回一个空列表。

使用此处文档中的示例。

返回

而不是预期的

它也不适用于许多其他示例。

0 投票
0 回答
40 浏览

python - 请求中的 WinError10060

我试图从'https://nhandan.vn/'中抓取新闻数据,但我在我的代码中遇到了 WinError10060,我已经在我的代码中添加了 sleep(1) 但这个错误没有改变。请帮助我(我是初学者)。谢谢我的代码:

我的错误:

0 投票
1 回答
105 浏览

python - 如何绕过报纸为某些网页抛出 503 异常

我正在尝试使用抓取许多网页,newspaper3k而我的程序正在抛出 503 异常。谁能帮我找出原因并帮助我解决这个问题?确切地说,我不是要捕捉这些异常,而是要了解它们发生的原因并尽可能防止它们。

这是我的回溯: