问题标签 [newspaper3k]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
52 浏览

opencv - 如何使用写轮眼进行报纸文本提取?

我想测试写轮眼的报纸文本提取https://github.com/vipul-sharma20/sharingan,但我不明白如何使用它。

我克隆了项目,安装了需求。

还有什么,有什么例子可以开始吗?

0 投票
2 回答
363 浏览

web-scraping - 如何使用python在重定向后(浏览器给出的那个)获取正确的url

我正在开展一个项目,其目的是从新闻文章(媒体网站)中检索所有信息,为此我正在使用运行良好的图书馆报纸 3K。

但是我有一个关于一些 url(重定向链接)的问题,根据我的研究,paper3k 不加载重定向 url,它只将发送的 url 作为参数。

这是我要处理的链接示例:

url = "wtm.actualite.20minutes.fr/redirection.html?m=3e2b20a2f1f6dd3c60608f54d7ad4dc5&c=fr&u=https%3A%2F%2Fwww.20minutes.fr%2Fmonde%2F2943823-20210103-bahamas-disparition-bateau-20-personnes-bord %3Fxtor%3DEREC-182-%5Bactualite%5D&dc=yt0U%2FI8COMJyjwQQ1fA2kVEXpoP0nsZydMTZS6jTm2DdKasFuV%2FVA7rEphhqMfGAy%2FlztUlVN4MJt5tg%2FQXfJwmXMRQL8g3Gfwhl%2BsjkkYmd%2BDxDUhb%2BpPRL%2BNsiDETNQeP3MmrQ6ATGJT%2Blf46Zg4DHd%2FzaXy%2B7UAuxatp2UcVd39HKuuMfQHmyDV%2BAxSAJrd4x5CxHqy3uTtZoQEjwGdZ%2FRtoa7YLOWLKhN9tg4TM%3D"

所以这个 url 的目标是获取正确的 url(重定向后),然后将其发送到 news3K。

我尝试了以下解决方案,但它们对我不起作用;

1 - 使用库请求如下response = requests.get(url, verify=False, allow_redirects=True)

2-使用机械化库如下:

我希望拥有与使用 webbrowser 时相同的过程(无需打开浏览器)

终于有权利了

网址: https://www.20minutes.fr/monde/2943823-20210103-bahamas-disparition-bateau-20-personnes-bord?xtor=EREC-182-[actualite]

提前感谢您的回复:)

0 投票
1 回答
276 浏览

python - 从多个网页获取网页文章信息(内容、标题、...)-python 代码

有一个 python 库 - Newspaper3k,它使获取网页内容变得更容易。[报纸][1]

标题检索:

对于内容检索:

我想获取有关网页的信息(有时是标题,有时是实际内容)有我的代码来获取网页的内容/文本:

“laborURLsml2.csv”文件内容为:[ laborURLsml2.csv ][2]

我的问题是:我的代码读取了第一个 URL 并打印了内容,但未能读取 2 个 URL

0 投票
1 回答
71 浏览

python - newsletter3k_does 对存储的数据起作用,我已经下载了 URL 的内容

这里的 GitHub 中的报纸 3k是一个非常有用的库。目前,它适用于 python3。我想知道它是否可以处理下载/存储的文本。关键是我们已经下载了 URL 的内容,并且不想在每次使用某些功能(关键字、摘要、日期……)时都重复此操作。例如,我们想查询存储数据的日期和作者。明显的代码执行流程 1.download、2.parse,提取各种信息:文本、标题、图像……这对我来说似乎是一个总是从下载开始的连锁反应:

0 投票
1 回答
97 浏览

python - newsletter3k,我做错了什么吗,作者功能没有在新闻文章中选择作者

这是关于报纸3k图书馆的作者功能。我有这个新闻 URL 列表。>>>> article.authors”有时没有选择作者。一个例子在这里:作者失踪

0 投票
1 回答
139 浏览

beautifulsoup - newsletter3k,在第一个“by”字之后的可见文本中查找作者姓名

Newsletter3K 是一个很好的用于新闻内容提取的 python 库。它工作很好。我想在可见文本中的第一个“by”词之后提取名称。这是我的代码,效果不好,请有人帮忙:

0 投票
1 回答
174 浏览

python - Newspaper3k:有什么方法可以将多篇网络文章下载到一个变量中?

我正在尝试下载一些网络文章进行解析。它们是类似的文章(年度报告),为了简单起见,我希望将所有三篇文章下载到一个单一的输出/变量中。

当我分隔多个 url 时,代码可以工作,但是,只有第一个 url 被下载。

这是我尝试运行的代码示例:

0 投票
0 回答
147 浏览

r - 使用带闪亮的网状时出错

我正在尝试在闪亮的应用程序中使用 python 包从网页中提取主文本:https ://newspaper.readthedocs.io/en/latest/

我所说的正文是文章的正文,没有任何添加、链接等……(非常类似于 iphone 上 safari 中的“读者视图”)。

据我所知,中没有类似的包r,如果你知道,请告诉我。

这个应用程序的目标是允许用户插入一个网址,单击提交并获得干净的文本作为输出。

请找到下面的代码以及错误消息。我正在使用 rstudio 云。

这是错误:

这是代码:

0 投票
0 回答
64 浏览

python - 无法将文章内容附加到列表

使用python报纸3k包,我试图循环浏览网站上的所有文章,并用文章的内容构建一个数据框。

文章的 meta_data 以嵌套字典的形式出现,我可以将它从一篇文章中提取出来,但当我遍历它们时却不行。列表的长度为 0

0 投票
1 回答
77 浏览

python - 报纸示例中的作者提取不起作用

我正在尝试使用报纸 3k 从包含没有运气的演讲的网页中提取演讲者姓名。按照包的文档,article.authors似乎总是返回一个空列表。

使用此处文档中的示例。

返回

而不是预期的

它也不适用于许多其他示例。