问题标签 [newspaper3k]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
108 浏览

python - Google Search Crawler 和 Newspaper3k 库已在一个循环中组合,以创建自动抓取工具。但是代码不起作用..解决方案?

在下面的代码中,我在 Newpaper3k 的帮助下抓取了谷歌搜索链接。但是,只要遇到不可抓取或其他方式的链接,代码就会失败。如何跳过无法抓取的网站,并为那些可以使用相同代码抓取的链接挖掘结果。

一旦遇到错误,我可以手动插入链接删除代码以及网站的元素(如下所示),但是重复的手动过程很麻烦。每当出现不可抓取的网站链接时,请帮助我找到一种继续循环的方法,其余的结果与代码一致。

0 投票
1 回答
105 浏览

python - 如何绕过报纸为某些网页抛出 503 异常

我正在尝试使用抓取许多网页,newspaper3k而我的程序正在抛出 503 异常。谁能帮我找出原因并帮助我解决这个问题?确切地说,我不是要捕捉这些异常,而是要了解它们发生的原因并尽可能防止它们。

这是我的回溯:

0 投票
0 回答
73 浏览

python - 报纸 3k - 从 HTML 而不是 URL 获取文章

我正在使用newspaper3k内部Scrapy解析方法。我想提取链接,但我不想再次获取该网站。

是否可以使用这个:

与平原html,所以我可以打电话.articles比?

0 投票
1 回答
76 浏览

python - 新闻在数据框中抓取多个网址

所以我尝试使用 Newspaper3k 来抓取一些网站的内容。在库中,该函数Article()只需要一个 url。这是否可以迭代一个充满 url 的数据框来自动抓取它?我的 df 是这样的

我尝试了一些这样的可能答案

但它得到一个错误

我也试试

但出现错误

如果得到帮助,我会尝试更多代码,我真的很感激。谢谢

0 投票
1 回答
75 浏览

python-3.x - Newspaper3k 仅在第一行导出到 csv

在“生活很复杂”的帮助下,我设法从 CNN 新闻网站上抓取了数据。从中提取的数据 (URL) 保存在 .csv 文件 (test1) 中。请注意,这是手动完成的,因为这样做更容易!

使用上面的代码,我设法从 URL 中抓取实际的新闻信息(标题和内容),并将其导出到 .csv 文件。只有导出的问题是,它只导出最后一个标题和文本(因此我认为它一直覆盖第一行的信息)

如何获取 csv 文件中的所有标题和内容?

0 投票
1 回答
78 浏览

python - Newspaper3k 在提取时过滤掉错误的 URL

在一些帮助下;)我设法从 CNN 新闻网站上抓取标题和内容,并将其放入 .csv 文件中。

现在带有 URL 的列表(已用另一个代码提取)有一些错误的 URL。代码非常简单,因为它只是扫描网站并返回所有 URL。因此,该列表有一些错误的 URL(例如http://cnn.com/date/2021-10-17)而不是搜索此列表并手动删除那些错误的 URL 我想知道是否可以通过将我的代码更改为跳过来解决错误的 URL 并继续下一个,依此类推。

示例代码:

0 投票
1 回答
83 浏览

python-3.x - 使用 requests、bs4 和报纸包提取新闻文章。为什么 links=soup.select(".r a") 找不到任何东西?这段代码早些时候工作

目标:我正在尝试根据关键字下载新闻文章以进行情感分析。

这段代码几个月前还在工作,但现在它返回一个空值。我尝试解决此问题,但links=soup.select(".r a")返回空值。