问题标签 [newspaper3k]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-newspaper - Newspaper3k:如何检索已兑现的文章?
该文档说,默认情况下,报纸会缓存所有以前提取的文章并删除它已经提取的任何文章。
好的,但是如果我建立一个网站,它什么也没说,我如何检索兑现的文章?
python - 用 Newspaper3k 抓取网页,只得到 50 篇文章
我想用newspaper3k在一个法国网站上抓取数据,结果只有50篇文章。这个网站有50多篇文章。我哪里错了?
我的目标是把这个网站上的所有文章都刮掉。
我试过这个:
这次打印的结果是 50 篇文章。
我不明白为什么报纸 3k 只会刮掉50 篇文章,而不是更多。
我尝试过的更新:
python - 使用报纸从 HTML 中提取图像
我不能像通常那样下载文章来实例化 Article 对象,如下所示:
但是,我可以从请求中获取 HTML。我可以使用这个原始 HTML 并以某种方式将其传递给 Newspaper 以从中提取图像吗?(以下是尝试,但不起作用)。谢谢
python - 为什么paper3k 会区分http://cnn.com 和http://www.cnn.com?
当我运行 Python 代码时
在 Python 3 中,我得到输出 897(即,报纸 3k 发现 897 页被认为是域http://cnn.com上的文章),但是当我运行时
(即,有一个额外的www.
;没有其他任何改变)我只得到 895。当我在这两个 URL 之间来回切换时,这些数字是一致的。www.
URL中的实际重要吗?如果是这样,为什么在使用报纸 3k 库时,这两个 URL 的文章计数变得如此相似?否则,为什么文章数不完全相同?
python - 使用报纸3k 从新闻来源获取更多文章 URL?
当我做
我看到那家报纸从http://cnn.com找到了902篇文章,这对我来说似乎很少,考虑到他们每天发表很多文章,并且已经在网上发表了很多年的文章。这些真的是http://cnn.com上的所有文章吗?如果没有,有什么办法我也可以找到其余文章的网址吗?
python-newspaper - Newspaper3k 抓取几个网站
我想从几个网站上获取文章。我试过了,但我不知道接下来我要做什么
python - 从新闻网站上抓取新闻标题
我一直在尝试从新闻网站上抓取新闻标题。为此,我遇到了两个python 库,即报纸和beautifulsoup4。使用漂亮的汤库,我已经能够从一个特定的新闻网站获得所有指向新闻文章的链接。从下面的代码中,我已经能够从单个链接中提取新闻文章的标题。
我想结合两个库的代码,即报纸和beautifulsoup4,这样我作为beautifulsoup库的输出获得的所有链接都应该放在报纸库的url命令中,我得到所有标题链接。下面是 beautfulsoup 的代码,我可以从中提取所有新闻文章的链接。
python - 使用 Python 和报纸 3k 库进行 Web Scraping 不会返回数据
我已经在我的 Mac 上安装了Newspapper3k
Lib sudo pip3 install Newspapper3k
。我正在使用 Python 3。我想返回 Article 对象支持的数据,即 url、日期、标题、文本、摘要和关键字,但我没有得到任何数据:
我得到了文章对象和 URL,但其他一切都是“”。我在不同的网站上尝试过,但结果是一样的。
然后我尝试添加:
我也尝试设置 Config 并设置 HEADERS 和 TIMEOUT,但结果是一样的。
当我这样做时,对于每个网站,我只得到 16 篇带有日期、标题和正文值的文章。这对我来说很奇怪,对于每个网站,我得到相同数量的数据,但对于超过 95% 的新闻文章,我得到的数据都没有。
美丽的汤可以帮助我吗?
有人可以帮助我了解问题所在,为什么我得到这么多 Null/Nan/"" 值,我该如何解决?
这是 lib 的文档:
python - 网络抓取新闻文章和关键字搜索
我有一个代码可以获取网页中新闻文章的标题。我使用了一个 for 循环,在其中我获得了 4 个新闻网站的标题。我还实现了一个单词搜索,它告诉我们使用“冠状病毒”这个词的文章的数量。我想要单词搜索,它可以告诉我每个网站中带有“冠状病毒”一词的文章数量。现在,我得到了所有网站中使用“冠状病毒”一词的次数的输出。请帮助我,我必须尽快提交这个项目。以下是代码:
css - 使用 CSS 网格的两栏报纸布局
我有 CSS 网格来生成两列布局。但问题是它不是每列中的顶部对齐内容。
例如,在第二列中,最后一个元素应该与另一个第二列元素顶部对齐,但要向上对齐。
我不能将 flex 用于此布局,因为我想在不定义容器高度的情况下实现此布局。column-count:2
如果不定义容器高度就可以工作,但是我不能使用 div 重新排序。
所以我使用 CSS 网格,因为 div 重新排序仍然可用(例如/即order:–1;
效果很好),它会自动划分要放入两列中的每一列的内容。