问题标签 [python-newspaper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
timestamp - Python:看到报纸3k 提供的文章的时间戳?
当我做
我获得了可以使用该软件包从news_source_url
(例如, )下载的文章的 URL 列表。有没有办法获取各种文章的时间戳?'http://cnn.com'
newspaper3k
特别是对于 CNN,日期似乎编码在许多文章的 URL 中,但我想获取任何新闻来源的文章时间戳。如果可能的话,我想同时获得日期和时间。
python - 使用报纸3k 从新闻来源获取更多文章 URL?
当我做
我看到那家报纸从http://cnn.com找到了902篇文章,这对我来说似乎很少,考虑到他们每天发表很多文章,并且已经在网上发表了很多年的文章。这些真的是http://cnn.com上的所有文章吗?如果没有,有什么办法我也可以找到其余文章的网址吗?
python-newspaper - Newspaper3k 抓取几个网站
我想从几个网站上获取文章。我试过了,但我不知道接下来我要做什么
python - 使用 Python 和报纸 3k 库进行 Web Scraping 不会返回数据
我已经在我的 Mac 上安装了Newspapper3k
Lib sudo pip3 install Newspapper3k
。我正在使用 Python 3。我想返回 Article 对象支持的数据,即 url、日期、标题、文本、摘要和关键字,但我没有得到任何数据:
我得到了文章对象和 URL,但其他一切都是“”。我在不同的网站上尝试过,但结果是一样的。
然后我尝试添加:
我也尝试设置 Config 并设置 HEADERS 和 TIMEOUT,但结果是一样的。
当我这样做时,对于每个网站,我只得到 16 篇带有日期、标题和正文值的文章。这对我来说很奇怪,对于每个网站,我得到相同数量的数据,但对于超过 95% 的新闻文章,我得到的数据都没有。
美丽的汤可以帮助我吗?
有人可以帮助我了解问题所在,为什么我得到这么多 Null/Nan/"" 值,我该如何解决?
这是 lib 的文档:
python - Pycharm:ModuleNotFoundError:没有名为“newspaper”的模块。Jupyter Notebook 没有问题
正如标题所暗示的那样。它甚至不是我可以安装的模块,因为它是 Python 3 的一部分,而且我在 Jupyter Notebook 中使用它没有任何问题。
我试图将 Python 解释器从 3.8 切换到 3.6,但无济于事。
任何意见,将不胜感激。
r - 使用带闪亮的网状时出错
我正在尝试在闪亮的应用程序中使用 python 包从网页中提取主文本:https ://newspaper.readthedocs.io/en/latest/
我所说的正文是文章的正文,没有任何添加、链接等……(非常类似于 iphone 上 safari 中的“读者视图”)。
据我所知,中没有类似的包r
,如果你知道,请告诉我。
这个应用程序的目标是允许用户插入一个网址,单击提交并获得干净的文本作为输出。
请找到下面的代码以及错误消息。我正在使用 rstudio 云。
这是错误:
这是代码:
python - 新闻抓取日期
我正在尝试从https://finansial.bisnis.com/read/20210506/90/1391096/laba-bank-mega-tumbuh-dua-digit-kuartal-i-2021-ini-penopangnya
. 我正在尝试抓取新闻的日期,这是我的代码:
但我收到了这个错误:
我的假设是因为Mei
是印度尼西亚语,同时格式需要May
是英语。怎么变Mei
是May
?我已经尝试过dates = dates.replace('Mei', 'May')
,但它对我不起作用。当我尝试它时,我得到了错误ValueError: unconverted data remains:
日期的类型是string
。谢谢
python - 报纸示例中的作者提取不起作用
我正在尝试使用报纸 3k 从包含没有运气的演讲的网页中提取演讲者姓名。按照包的文档,article.authors
似乎总是返回一个空列表。
使用此处文档中的示例。
返回
而不是预期的
它也不适用于许多其他示例。
python - 请求中的 WinError10060
我试图从'https://nhandan.vn/'中抓取新闻数据,但我在我的代码中遇到了 WinError10060,我已经在我的代码中添加了 sleep(1) 但这个错误没有改变。请帮助我(我是初学者)。谢谢我的代码:
我的错误:
python - 如何绕过报纸为某些网页抛出 503 异常
我正在尝试使用抓取许多网页,newspaper3k
而我的程序正在抛出 503 异常。谁能帮我找出原因并帮助我解决这个问题?确切地说,我不是要捕捉这些异常,而是要了解它们发生的原因并尽可能防止它们。
这是我的回溯: