问题标签 [python-newspaper]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

105 问题

0 投票

1 回答

639 浏览

timestamp - Python：看到报纸3k 提供的文章的时间戳？

当我做

我获得了可以使用该软件包从news_source_url（例如，）下载的文章的 URL 列表。有没有办法获取各种文章的时间戳？'http://cnn.com'newspaper3k

特别是对于 CNN，日期似乎编码在许多文章的 URL 中，但我想获取任何新闻来源的文章时间戳。如果可能的话，我想同时获得日期和时间。

timestamp python-newspaper

2020-09-18T01:20:17.900

0 投票

1 回答

429 浏览

python - 使用报纸3k 从新闻来源获取更多文章 URL？

当我做

我看到那家报纸从http://cnn.com找到了902篇文章，这对我来说似乎很少，考虑到他们每天发表很多文章，并且已经在网上发表了很多年的文章。这些真的是http://cnn.com上的所有文章吗？如果没有，有什么办法我也可以找到其余文章的网址吗？

2020-09-28T01:59:14.450

0 投票

1 回答

132 浏览

python-newspaper - Newspaper3k 抓取几个网站

我想从几个网站上获取文章。我试过了，但我不知道接下来我要做什么

python-newspaper newspaper3k

2020-10-07T19:01:52.057

0 投票

1 回答

2049 浏览

python - 使用 Python 和报纸 3k 库进行 Web Scraping 不会返回数据

我已经在我的 Mac 上安装了Newspapper3kLib sudo pip3 install Newspapper3k。我正在使用 Python 3。我想返回 Article 对象支持的数据，即 url、日期、标题、文本、摘要和关键字，但我没有得到任何数据：

我得到了文章对象和 URL，但其他一切都是“”。我在不同的网站上尝试过，但结果是一样的。

然后我尝试添加：

我也尝试设置 Config 并设置 HEADERS 和 TIMEOUT，但结果是一样的。

当我这样做时，对于每个网站，我只得到 16 篇带有日期、标题和正文值的文章。这对我来说很奇怪，对于每个网站，我得到相同数量的数据，但对于超过 95% 的新闻文章，我得到的数据都没有。

美丽的汤可以帮助我吗？

有人可以帮助我了解问题所在，为什么我得到这么多 Null/Nan/"" 值，我该如何解决？

这是 lib 的文档：

https://newspaper.readthedocs.io/en/latest/

python web-scraping python-newspaper newspaper3k

2020-12-02T15:11:38.760

0 投票

0 回答

85 浏览

python - Pycharm：ModuleNotFoundError：没有名为“newspaper”的模块。Jupyter Notebook 没有问题

正如标题所暗示的那样。它甚至不是我可以安装的模块，因为它是 Python 3 的一部分，而且我在 Jupyter Notebook 中使用它没有任何问题。

我试图将 Python 解释器从 3.8 切换到 3.6，但无济于事。

任何意见，将不胜感激。

python nlp python-newspaper

2021-01-21T18:32:02.940

0 投票

0 回答

147 浏览

r - 使用带闪亮的网状时出错

我正在尝试在闪亮的应用程序中使用 python 包从网页中提取主文本：https ://newspaper.readthedocs.io/en/latest/

我所说的正文是文章的正文，没有任何添加、链接等……（非常类似于 iphone 上 safari 中的“读者视图”）。

据我所知，中没有类似的包r，如果你知道，请告诉我。

这个应用程序的目标是允许用户插入一个网址，单击提交并获得干净的文本作为输出。

请找到下面的代码以及错误消息。我正在使用 rstudio 云。

这是错误：

这是代码：

r shiny reticulate python-newspaper newspaper3k

2021-04-04T01:30:02.500

0 投票

3 回答

168 浏览

python - 新闻抓取日期

我正在尝试从https://finansial.bisnis.com/read/20210506/90/1391096/laba-bank-mega-tumbuh-dua-digit-kuartal-i-2021-ini-penopangnya. 我正在尝试抓取新闻的日期，这是我的代码：

但我收到了这个错误：

我的假设是因为Mei是印度尼西亚语，同时格式需要May是英语。怎么变Mei是May？我已经尝试过dates = dates.replace('Mei', 'May')，但它对我不起作用。当我尝试它时，我得到了错误ValueError: unconverted data remains: 日期的类型是string。谢谢

python python-3.x web-scraping google-news python-newspaper

2021-05-06T05:02:57.193

0 投票

1 回答

77 浏览

python - 报纸示例中的作者提取不起作用

我正在尝试使用报纸 3k 从包含没有运气的演讲的网页中提取演讲者姓名。按照包的文档，article.authors似乎总是返回一个空列表。

使用此处文档中的示例。

而不是预期的

它也不适用于许多其他示例。

python nlp python-newspaper newspaper3k

2021-06-10T15:13:31.657

0 投票

0 回答

40 浏览

python - 请求中的 WinError10060

我试图从'https://nhandan.vn/'中抓取新闻数据，但我在我的代码中遇到了 WinError10060，我已经在我的代码中添加了 sleep(1) 但这个错误没有改变。请帮助我（我是初学者）。谢谢我的代码：

我的错误：

python python-requests web-crawler python-newspaper

2021-06-29T09:44:56.750

0 投票

1 回答

105 浏览

python - 如何绕过报纸为某些网页抛出 503 异常

我正在尝试使用抓取许多网页，newspaper3k而我的程序正在抛出 503 异常。谁能帮我找出原因并帮助我解决这个问题？确切地说，我不是要捕捉这些异常，而是要了解它们发生的原因并尽可能防止它们。

这是我的回溯：

python web-scraping python-newspaper newspaper3k

2021-07-09T05:23:19.727

1 2 3 4 5 6 7 8 9 10

问题标签 [python-newspaper]

Reference