问题标签 [newspaper3k]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

37 问题

0 投票

1 回答

164 浏览

python-newspaper - Newspaper3k：如何检索已兑现的文章？

该文档说，默认情况下，报纸会缓存所有以前提取的文章并删除它已经提取的任何文章。

好的，但是如果我建立一个网站，它什么也没说，我如何检索兑现的文章？

python-newspaper newspaper3k

2020-08-31T13:53:38.780

0 投票

1 回答

1200 浏览

python - 用 Newspaper3k 抓取网页，只得到 50 篇文章

我想用newspaper3k在一个法国网站上抓取数据，结果只有50篇文章。这个网站有50多篇文章。我哪里错了？

我的目标是把这个网站上的所有文章都刮掉。

我试过这个：

这次打印的结果是 50 篇文章。

我不明白为什么报纸 3k 只会刮掉50 篇文章，而不是更多。

我尝试过的更新：

python newspaper3k

2020-09-07T18:47:38.083

0 投票

2 回答

801 浏览

python - 使用报纸从 HTML 中提取图像

我不能像通常那样下载文章来实例化 Article 对象，如下所示：

但是，我可以从请求中获取 HTML。我可以使用这个原始 HTML 并以某种方式将其传递给 Newspaper 以从中提取图像吗？（以下是尝试，但不起作用）。谢谢

python extract python-newspaper newspaper3k

2020-09-11T07:26:18.680

0 投票

1 回答

100 浏览

python - 为什么paper3k 会区分http://cnn.com 和http://www.cnn.com？

当我运行 Python 代码时

在 Python 3 中，我得到输出 897（即，报纸 3k 发现 897 页被认为是域http://cnn.com上的文章），但是当我运行时

（即，有一个额外的www.；没有其他任何改变）我只得到 895。当我在这两个 URL 之间来回切换时，这些数字是一致的。www.URL中的实际重要吗？如果是这样，为什么在使用报纸 3k 库时，这两个 URL 的文章计数变得如此相似？否则，为什么文章数不完全相同？

python url python-newspaper newspaper3k

2020-09-13T20:18:26.507

0 投票

1 回答

429 浏览

python - 使用报纸3k 从新闻来源获取更多文章 URL？

当我做

我看到那家报纸从http://cnn.com找到了902篇文章，这对我来说似乎很少，考虑到他们每天发表很多文章，并且已经在网上发表了很多年的文章。这些真的是http://cnn.com上的所有文章吗？如果没有，有什么办法我也可以找到其余文章的网址吗？

python python-newspaper newspaper3k

2020-09-28T01:59:14.450

0 投票

1 回答

132 浏览

python-newspaper - Newspaper3k 抓取几个网站

我想从几个网站上获取文章。我试过了，但我不知道接下来我要做什么

python-newspaper newspaper3k

2020-10-07T19:01:52.057

0 投票

1 回答

452 浏览

python - 从新闻网站上抓取新闻标题

我一直在尝试从新闻网站上抓取新闻标题。为此，我遇到了两个python 库，即报纸和beautifulsoup4。使用漂亮的汤库，我已经能够从一个特定的新闻网站获得所有指向新闻文章的链接。从下面的代码中，我已经能够从单个链接中提取新闻文章的标题。

我想结合两个库的代码，即报纸和beautifulsoup4，这样我作为beautifulsoup库的输出获得的所有链接都应该放在报纸库的url命令中，我得到所有标题链接。下面是 beautfulsoup 的代码，我可以从中提取所有新闻文章的链接。

python web-scraping beautifulsoup newspaper3k

2020-11-20T10:51:47.697

0 投票

1 回答

2049 浏览

python - 使用 Python 和报纸 3k 库进行 Web Scraping 不会返回数据

我已经在我的 Mac 上安装了Newspapper3kLib sudo pip3 install Newspapper3k。我正在使用 Python 3。我想返回 Article 对象支持的数据，即 url、日期、标题、文本、摘要和关键字，但我没有得到任何数据：

我得到了文章对象和 URL，但其他一切都是“”。我在不同的网站上尝试过，但结果是一样的。

然后我尝试添加：

我也尝试设置 Config 并设置 HEADERS 和 TIMEOUT，但结果是一样的。

当我这样做时，对于每个网站，我只得到 16 篇带有日期、标题和正文值的文章。这对我来说很奇怪，对于每个网站，我得到相同数量的数据，但对于超过 95% 的新闻文章，我得到的数据都没有。

美丽的汤可以帮助我吗？

有人可以帮助我了解问题所在，为什么我得到这么多 Null/Nan/"" 值，我该如何解决？

这是 lib 的文档：

https://newspaper.readthedocs.io/en/latest/

python web-scraping python-newspaper newspaper3k

2020-12-02T15:11:38.760

0 投票

1 回答

614 浏览

python - 网络抓取新闻文章和关键字搜索

我有一个代码可以获取网页中新闻文章的标题。我使用了一个 for 循环，在其中我获得了 4 个新闻网站的标题。我还实现了一个单词搜索，它告诉我们使用“冠状病毒”这个词的文章的数量。我想要单词搜索，它可以告诉我每个网站中带有“冠状病毒”一词的文章数量。现在，我得到了所有网站中使用“冠状病毒”一词的次数的输出。请帮助我，我必须尽快提交这个项目。以下是代码：

python python-3.x web-scraping beautifulsoup newspaper3k

2020-12-02T16:19:16.573

0 投票

2 回答

315 浏览

css - 使用 CSS 网格的两栏报纸布局

我有 CSS 网格来生成两列布局。但问题是它不是每列中的顶部对齐内容。

例如，在第二列中，最后一个元素应该与另一个第二列元素顶部对齐，但要向上对齐。

我不能将 flex 用于此布局，因为我想在不定义容器高度的情况下实现此布局。column-count:2 如果不定义容器高度就可以工作，但是我不能使用 div 重新排序。

所以我使用 CSS 网格，因为 div 重新排序仍然可用（例如/即order:–1;效果很好），它会自动划分要放入两列中的每一列的内容。

css css-grid newspaper3k

2020-12-07T17:45:10.620

1 2 3 4 5 6 7 8 9 10

问题标签 [newspaper3k]

Reference