问题标签 [newspaper3k]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

37 问题

0 投票

1 回答

108 浏览

python - Google Search Crawler 和 Newspaper3k 库已在一个循环中组合，以创建自动抓取工具。但是代码不起作用..解决方案？

在下面的代码中，我在 Newpaper3k 的帮助下抓取了谷歌搜索链接。但是，只要遇到不可抓取或其他方式的链接，代码就会失败。如何跳过无法抓取的网站，并为那些可以使用相同代码抓取的链接挖掘结果。

一旦遇到错误，我可以手动插入链接删除代码以及网站的元素（如下所示），但是重复的手动过程很麻烦。每当出现不可抓取的网站链接时，请帮助我找到一种继续循环的方法，其余的结果与代码一致。

2021-06-17T14:40:15.103

0 投票

1 回答

105 浏览

python - 如何绕过报纸为某些网页抛出 503 异常

我正在尝试使用抓取许多网页，newspaper3k而我的程序正在抛出 503 异常。谁能帮我找出原因并帮助我解决这个问题？确切地说，我不是要捕捉这些异常，而是要了解它们发生的原因并尽可能防止它们。

这是我的回溯：

python web-scraping python-newspaper newspaper3k

2021-07-09T05:23:19.727

0 投票

0 回答

73 浏览

python - 报纸 3k - 从 HTML 而不是 URL 获取文章

我正在使用newspaper3k内部Scrapy解析方法。我想提取链接，但我不想再次获取该网站。

是否可以使用这个：

与平原html，所以我可以打电话.articles比？

python parsing web-scraping scrapy newspaper3k

2021-07-13T10:34:21.970

0 投票

1 回答

76 浏览

python - 新闻在数据框中抓取多个网址

所以我尝试使用 Newspaper3k 来抓取一些网站的内容。在库中，该函数Article()只需要一个 url。这是否可以迭代一个充满 url 的数据框来自动抓取它？我的 df 是这样的

我尝试了一些这样的可能答案

但它得到一个错误

我也试试

但出现错误

如果得到帮助，我会尝试更多代码，我真的很感激。谢谢

python pandas web-scraping scrapy newspaper3k

2021-10-08T10:39:38.020

0 投票

1 回答

75 浏览

python-3.x - Newspaper3k 仅在第一行导出到 csv

在“生活很复杂”的帮助下，我设法从 CNN 新闻网站上抓取了数据。从中提取的数据 (URL) 保存在 .csv 文件 (test1) 中。请注意，这是手动完成的，因为这样做更容易！

使用上面的代码，我设法从 URL 中抓取实际的新闻信息（标题和内容），并将其导出到 .csv 文件。只有导出的问题是，它只导出最后一个标题和文本（因此我认为它一直覆盖第一行的信息）

如何获取 csv 文件中的所有标题和内容？

python-3.x csv web-scraping newspaper3k

2021-10-25T16:23:48.560

0 投票

1 回答

78 浏览

python - Newspaper3k 在提取时过滤掉错误的 URL

在一些帮助下；）我设法从 CNN 新闻网站上抓取标题和内容，并将其放入 .csv 文件中。

现在带有 URL 的列表（已用另一个代码提取）有一些错误的 URL。代码非常简单，因为它只是扫描网站并返回所有 URL。因此，该列表有一些错误的 URL（例如http://cnn.com/date/2021-10-17）而不是搜索此列表并手动删除那些错误的 URL 我想知道是否可以通过将我的代码更改为跳过来解决错误的 URL 并继续下一个，依此类推。

示例代码：

python web-scraping newspaper3k

2021-10-26T18:17:45.197

0 投票

1 回答

83 浏览

python-3.x - 使用 requests、bs4 和报纸包提取新闻文章。为什么 links=soup.select(".r a") 找不到任何东西？这段代码早些时候工作

目标：我正在尝试根据关键字下载新闻文章以进行情感分析。

这段代码几个月前还在工作，但现在它返回一个空值。我尝试解决此问题，但links=soup.select(".r a")返回空值。

python-3.x beautifulsoup python-requests python-newspaper newspaper3k

2021-11-12T06:18:52.013

1 2 3 4 5 6 7 8 9 10

问题标签 [newspaper3k]

Reference