问题标签 [newspaper3k]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
164 浏览

python-newspaper - Newspaper3k:如何检索已兑现的文章?

文档说,默认情况下,报纸会缓存所有以前提取的文章并删除它已经提取的任何文章。

好的,但是如果我建立一个网站,它什么也没说,我如何检索兑现的文章?

0 投票
1 回答
1200 浏览

python - 用 Newspaper3k 抓取网页,只得到 50 篇文章

我想用newspaper3k在一个法国网站上抓取数据,结果只有50篇文章。这个网站有50多篇文章。我哪里错了?

我的目标是把这个网站上的所有文章都刮掉。

我试过这个:

这次打印的结果是 50 篇文章。

我不明白为什么报纸 3k 只会刮掉50 篇文章,而不是更多。

我尝试过的更新:

0 投票
2 回答
801 浏览

python - 使用报纸从 HTML 中提取图像

我不能像通常那样下载文章来实例化 Article 对象,如下所示:

但是,我可以从请求中获取 HTML。我可以使用这个原始 HTML 并以某种方式将其传递给 Newspaper 以从中提取图像吗?(以下是尝试,但不起作用)。谢谢

0 投票
1 回答
100 浏览

python - 为什么paper3k 会区分http://cnn.com 和http://www.cnn.com?

当我运行 Python 代码时

在 Python 3 中,我得到输出 897(即,报纸 3k 发现 897 页被认为是域http://cnn.com上的文章),但是当我运行时

(即,有一个额外的www.;没有其他任何改变)我只得到 895。当我在这两个 URL 之间来回切换时,这些数字是一致的。www.URL中的实际重要吗?如果是这样,为什么在使用报纸 3k 库时,这两个 URL 的文章计数变得如此相似?否则,为什么文章数不完全相同?

0 投票
1 回答
429 浏览

python - 使用报纸3k 从新闻来源获取更多文章 URL?

当我做

我看到那家报纸从http://cnn.com找到了902篇文章,这对我来说似乎很少,考虑到他们每天发表很多文章,并且已经在网上发表了很多年的文章。这些真的是http://cnn.com上的所有文章吗?如果没有,有什么办法我也可以找到其余文章的网址吗?

0 投票
1 回答
132 浏览

python-newspaper - Newspaper3k 抓取几个网站

我想从几个网站上获取文章。我试过了,但我不知道接下来我要做什么

0 投票
1 回答
452 浏览

python - 从新闻网站上抓取新闻标题

我一直在尝试从新闻网站上抓取新闻标题。为此,我遇到了两个python 库,即报纸和beautifulsoup4。使用漂亮的汤库,我已经能够从一个特定的新闻网站获得所有指向新闻文章的链接。从下面的代码中,我已经能够从单个链接中提取新闻文章的标题。

我想结合两个库的代码,即报纸和beautifulsoup4,这样我作为beautifulsoup库的输出获得的所有链接都应该放在报纸库的url命令中,我得到所有标题链接。下面是 beautfulsoup 的代码,我可以从中提取所有新闻文章的链接。

0 投票
1 回答
2049 浏览

python - 使用 Python 和报纸 3k 库进行 Web Scraping 不会返回数据

我已经在我的 Mac 上安装了Newspapper3kLib sudo pip3 install Newspapper3k。我正在使用 Python 3。我想返回 Article 对象支持的数据,即 url、日期、标题、文本、摘要和关键字,但我没有得到任何数据:

我得到了文章对象和 URL,但其他一切都是“”。我在不同的网站上尝试过,但结果是一样的。

然后我尝试添加:

我也尝试设置 Config 并设置 HEADERS 和 TIMEOUT,但结果是一样的。

当我这样做时,对于每个网站,我只得到 16 篇带有日期、标题和正文值的文章。这对我来说很奇怪,对于每个网站,我得到相同数量的数据,但对于超过 95% 的新闻文章,我得到的数据都没有。

美丽的汤可以帮助我吗?

有人可以帮助我了解问题所在,为什么我得到这么多 Null/Nan/"" 值,我该如何解决?

这是 lib 的文档:

https://newspaper.readthedocs.io/en/latest/

0 投票
1 回答
614 浏览

python - 网络抓取新闻文章和关键字搜索

我有一个代码可以获取网页中新闻文章的标题。我使用了一个 for 循环,在其中我获得了 4 个新闻网站的标题。我还实现了一个单词搜索,它告诉我们使用“冠状病毒”这个词的文章的数量。我想要单词搜索,它可以告诉我每个网站中带有“冠状病毒”一词的文章数量。现在,我得到了所有网站中使用“冠状病毒”一词的次数的输出。请帮助我,我必须尽快提交这个项目。以下是代码:

0 投票
2 回答
315 浏览

css - 使用 CSS 网格的两栏报纸布局

我有 CSS 网格来生成两列布局。但问题是它不是每列中的顶部对齐内容。

例如,在第二列中,最后一个元素应该与另一个第二列元素顶部对齐,但要向上对齐。

我不能将 flex 用于此布局,因为我想在不定义容器高度的情况下实现此布局。column-count:2 如果不定义容器高度就可以工作,但是我不能使用 div 重新排序。

所以我使用 CSS 网格,因为 div 重新排序仍然可用(例如/即order:–1;效果很好),它会自动划分要放入两列中的每一列的内容。