问题标签 [newspaper3k]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

37 问题

0 投票

0 回答

52 浏览

opencv - 如何使用写轮眼进行报纸文本提取？

我想测试写轮眼的报纸文本提取https://github.com/vipul-sharma20/sharingan，但我不明白如何使用它。

我克隆了项目，安装了需求。

还有什么，有什么例子可以开始吗？

opencv newspaper3k

2020-12-29T15:04:10.087

0 投票

2 回答

363 浏览

web-scraping - 如何使用python在重定向后（浏览器给出的那个）获取正确的url

我正在开展一个项目，其目的是从新闻文章（媒体网站）中检索所有信息，为此我正在使用运行良好的图书馆报纸 3K。

但是我有一个关于一些 url（重定向链接）的问题，根据我的研究，paper3k 不加载重定向 url，它只将发送的 url 作为参数。

这是我要处理的链接示例：

url = "wtm.actualite.20minutes.fr/redirection.html?m=3e2b20a2f1f6dd3c60608f54d7ad4dc5&c=fr&u=https%3A%2F%2Fwww.20minutes.fr%2Fmonde%2F2943823-20210103-bahamas-disparition-bateau-20-personnes-bord %3Fxtor%3DEREC-182-%5Bactualite%5D&dc=yt0U%2FI8COMJyjwQQ1fA2kVEXpoP0nsZydMTZS6jTm2DdKasFuV%2FVA7rEphhqMfGAy%2FlztUlVN4MJt5tg%2FQXfJwmXMRQL8g3Gfwhl%2BsjkkYmd%2BDxDUhb%2BpPRL%2BNsiDETNQeP3MmrQ6ATGJT%2Blf46Zg4DHd%2FzaXy%2B7UAuxatp2UcVd39HKuuMfQHmyDV%2BAxSAJrd4x5CxHqy3uTtZoQEjwGdZ%2FRtoa7YLOWLKhN9tg4TM%3D"

所以这个 url 的目标是获取正确的 url（重定向后），然后将其发送到 news3K。

我尝试了以下解决方案，但它们对我不起作用；

1 - 使用库请求如下response = requests.get(url, verify=False, allow_redirects=True)

2-使用机械化库如下：

我希望拥有与使用 webbrowser 时相同的过程（无需打开浏览器）

终于有权利了

网址： https://www.20minutes.fr/monde/2943823-20210103-bahamas-disparition-bateau-20-personnes-bord?xtor=EREC-182-[actualite]

提前感谢您的回复:)

2021-01-06T11:35:06.250

0 投票

1 回答

276 浏览

python - 从多个网页获取网页文章信息（内容、标题、...）-python 代码

有一个 python 库 - Newspaper3k，它使获取网页内容变得更容易。[报纸][1]

标题检索：

对于内容检索：

我想获取有关网页的信息（有时是标题，有时是实际内容）有我的代码来获取网页的内容/文本：

“laborURLsml2.csv”文件内容为：[ laborURLsml2.csv ][2]

我的问题是：我的代码读取了第一个 URL 并打印了内容，但未能读取 2 个 URL

python python-3.x web-scraping newspaper3k

2021-01-10T23:57:44.067

0 投票

1 回答

71 浏览

python - newsletter3k_does 对存储的数据起作用，我已经下载了 URL 的内容

这里的 GitHub 中的报纸 3k是一个非常有用的库。目前，它适用于 python3。我想知道它是否可以处理下载/存储的文本。关键是我们已经下载了 URL 的内容，并且不想在每次使用某些功能（关键字、摘要、日期……）时都重复此操作。例如，我们想查询存储数据的日期和作者。明显的代码执行流程 1.download、2.parse，提取各种信息：文本、标题、图像……这对我来说似乎是一个总是从下载开始的连锁反应：

python url text local newspaper3k

2021-02-09T04:27:00.053

0 投票

1 回答

97 浏览