问题标签 [newspaper3k]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
847 浏览

python - 带有网络存档的 Python 报纸(回程机器)

我正在尝试将 Python 图书馆报纸与来自Wayback Machine的档案一起使用,该档案存储了已归档网站的旧版本。理论上,可以从这些档案库中查询和下载旧的新闻文章。

例如,以下代码查询CNBC的档案以获取特定的存档日期。

尽管存档的网站本身包含 2016-12-01 的实际新闻文章的链接,但报纸模块似乎没有接收到它们。相反,您会获得以下网址:

这些不是来自此 CNBC 存档版本的实际文章。但是,报纸与今天CNBC版本配合得很好。

我想它会因为 url 的格式(包含两个https)而感到困惑。有人对如何从Wayback Machine档案中提取文章有任何建议吗?

0 投票
0 回答
101 浏览

python - NLTK:TypeError:必须是 str,而不是列表

我在码头集装箱中使用报纸3k。我下载了所有需要的 nltk 数据,但是当我运行article.nlp()thenarticle.nlp()article.summary.

当我在 Flask 应用程序中使用相同的代码时,它可以工作,现在我正在 Django (+ DRF) 上对其进行测试,但我遇到了这个错误:

似乎发现有问题tokenizers/punkt/english.pickle,但是当我检查 nltk_data 时,它就在那里。

你有什么想法,这可能来自哪里?

更新

代码非常简单。这是我的 Django 视图:

由于我使用的是 Django Rest 框架,因此我正在使用此字段进行序列化:

0 投票
1 回答
328 浏览

html - 如何从报纸 3k 对象中删除不需要的类和标签?

我想提取新闻文章内容,我目前正在使用报纸 3k库:

但是对于某些网站,图像中存在广告和文本等不需要的元素。所以我想删除那些不需要的元素和文本。有没有办法从这些标签和类中删除所有内容?

0 投票
1 回答
88 浏览

python - 如何使用 txt 文件而不是文章?(Python)

我写了一个阅读文章和自学AI的代码。首先,我阅读带有 URL 的文章并下载它。然后我解析文章并将其用于我的 AI 学习文本。但是现在我想从 txt 文件中读取文本。如何将 txt 文件的文本分配给 Article 对象?(请检查代码以清除我的愿望)谢谢大家。

PS:我想使用 txt 文件而不是 URL。但我不会从代码中删除文章,因为它再次是必要的。

0 投票
1 回答
286 浏览

python - newsplease commoncrawl.py 文件中的异常

我正在使用从https://github.com/fhamborg/news-please克隆的 newsplease 库。我想使用 newsplease 从 commoncrawl 新闻数据集中获取新闻文章。我正在按照此处的说明运行 commoncrawl.py 文件。我使用了以下命令-

在执行以下命令时,我收到以下错误 -

这里有什么错误我该如何解决这个问题。

https://github.com/fhamborg/news-please表示采用 newsplease/examples/commoncrawl.py 中的配置部分。这是什么意思 ?
我已经从这个文件中复制了配置并粘贴到 了newsplease/config目录中的config.cfg中。这是他们指示的吗?或者我在这里犯了一个错误。

我正在使用python 3.6。我的机器上只安装了一个 python。

0 投票
1 回答
803 浏览

python - 报纸.article.ArticleException:文章“下载()”失败,出现403客户端错误:url被禁止

我正在尝试从可以通过网络(例如 Safari)浏览的文章中下载文本。

错误是:

这是代码:

就像您看到的那样,我尝试了此Stackoverflow 答案中的解决方案,但没有奏效。

完整的错误日志:

我从这个网站获得了我的用户代理信息:https ://developers.whatismybrowser.com/useragents/explore/operating_system_name/macos/

0 投票
1 回答
1364 浏览

python - Newspaper3k API 文章下载()失败,HTTPSConnectionPool 端口=443 读取超时。(读取超时 = 7)在 URL 上

在 Firefox 中浏览时,我可以看到http://www.chicagotribune.com/ct-florida-school-shooter-nikolas-cruz-20180217-story.html 。但是,newspaper3k给了我这个错误:

我的代码是:

我认为像“renewIPAddress()”这样的东西可能会有所帮助,但我不确定如何将它准确地放入这段代码中。https://stackoverflow.com/a/50496768/2414957

0 投票
2 回答
118 浏览

web-scraping - 似乎无法访问元标记

我需要从新闻文章中抓取作者和日期,但我无法访问元标记中的某些信息。

当我打印出汤时,我可以在输出中获得 Meta 标签,所以我知道它们在那里,但我似乎无法用任何一种方法访问它们。

这是我到目前为止得到的输出:无检查日期,,,克里斯托弗·米姆斯

有什么想法吗?

0 投票
1 回答
440 浏览

python-3.x - 用于抓取文章的报纸 api

我已经使用 python 中的报纸 3k api 来抓取文章。我无法抓取印度时报的文章,从响应其余文章中获取发布日期为空,正在提供适当的文章。

0 投票
1 回答
409 浏览

python - Python Newspapers3k 报纸库多线程无限期挂起

我正在做一个从游戏媒体网站中提取文章的项目,并且我正在做一个基本的测试运行,根据 VSCode 的调试器,在我设置多线程提取之后始终挂起(更改线程数无济于事)在两个站点上。老实说,我不确定我在这里做错了什么;我按照已经列出的示例进行操作。其中一个站点 Gamespot 甚至被用于某人的教程中,我尝试删除另一个站点(Polygon),但似乎没有帮助。我已经创建了一个虚拟环境,并在 Python 3.8 和 3.7 中都进行了尝试。所有依赖似乎都得到满足;我还在 repl dot it 中进行了测试并得到了相同的挂起。

我很想听到我只是做错了什么,所以我可以修复它;我真的很想在这些特定的网站和他们的文章上做一些数据科学!但似乎,至少对于 OS X 用户来说,多线程存在某种错误。这是我的代码:

当我最终放弃并在控制台打断时,这就是我得到的回报: