问题标签 [newspaper3k]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

37 问题

0 投票

1 回答

847 浏览

python - 带有网络存档的 Python 报纸（回程机器）

我正在尝试将 Python 图书馆报纸与来自Wayback Machine的档案一起使用，该档案存储了已归档网站的旧版本。理论上，可以从这些档案库中查询和下载旧的新闻文章。

例如，以下代码查询CNBC的档案以获取特定的存档日期。

尽管存档的网站本身包含 2016-12-01 的实际新闻文章的链接，但报纸模块似乎没有接收到它们。相反，您会获得以下网址：

这些不是来自此 CNBC 存档版本的实际文章。但是，报纸与今天的CNBC版本配合得很好。

我想它会因为 url 的格式（包含两个https）而感到困惑。有人对如何从Wayback Machine档案中提取文章有任何建议吗？

2017-01-16T15:44:40.243

0 投票

0 回答

101 浏览

python - NLTK：TypeError：必须是 str，而不是列表

我在码头集装箱中使用报纸3k。我下载了所有需要的 nltk 数据，但是当我运行article.nlp()thenarticle.nlp()和article.summary.

当我在 Flask 应用程序中使用相同的代码时，它可以工作，现在我正在 Django (+ DRF) 上对其进行测试，但我遇到了这个错误：

似乎发现有问题tokenizers/punkt/english.pickle，但是当我检查 nltk_data 时，它就在那里。

你有什么想法，这可能来自哪里？

更新：

代码非常简单。这是我的 Django 视图：

由于我使用的是 Django Rest 框架，因此我正在使用此字段进行序列化：

python django nlp nltk newspaper3k

2020-05-15T18:02:46.177

0 投票

1 回答

328 浏览

html - 如何从报纸 3k 对象中删除不需要的类和标签？

我想提取新闻文章内容，我目前正在使用报纸 3k库：

但是对于某些网站，图像中存在广告和文本等不需要的元素。所以我想删除那些不需要的元素和文本。有没有办法从这些标签和类中删除所有内容？

html python-3.x web-scraping data-cleaning newspaper3k

2020-06-17T08:24:31.467

0 投票

1 回答

88 浏览

python - 如何使用 txt 文件而不是文章？（Python）

我写了一个阅读文章和自学AI的代码。首先，我阅读带有 URL 的文章并下载它。然后我解析文章并将其用于我的 AI 学习文本。但是现在我想从 txt 文件中读取文本。如何将 txt 文件的文本分配给 Article 对象？（请检查代码以清除我的愿望）谢谢大家。

PS：我想使用 txt 文件而不是 URL。但我不会从代码中删除文章，因为它再次是必要的。

python python-3.x nltk python-newspaper newspaper3k

user12689308

2020-06-18T11:33:32.453

0 投票

1 回答

286 浏览

python - newsplease commoncrawl.py 文件中的异常

我正在使用从https://github.com/fhamborg/news-please克隆的 newsplease 库。我想使用 newsplease 从 commoncrawl 新闻数据集中获取新闻文章。我正在按照此处的说明运行 commoncrawl.py 文件。我使用了以下命令-

在执行以下命令时，我收到以下错误 -

这里有什么错误我该如何解决这个问题。

https://github.com/fhamborg/news-please表示采用 newsplease/examples/commoncrawl.py 中的配置部分。这是什么意思？
我已经从这个文件中复制了配置并粘贴到了newsplease/config目录中的config.cfg中。这是他们指示的吗？或者我在这里犯了一个错误。

我正在使用python 3.6。我的机器上只安装了一个 python。

python web-crawler python-newspaper common-crawl newspaper3k

2020-07-12T10:21:37.480

0 投票

1 回答

803 浏览

python - 报纸.article.ArticleException：文章“下载（）”失败，出现403客户端错误：url被禁止

我正在尝试从可以通过网络（例如 Safari）浏览的文章中下载文本。

错误是：

这是代码：

就像您看到的那样，我尝试了此Stackoverflow 答案中的解决方案，但没有奏效。

完整的错误日志：

我从这个网站获得了我的用户代理信息：https ://developers.whatismybrowser.com/useragents/explore/operating_system_name/macos/

python python-3.x url download newspaper3k

2020-07-23T17:56:19.847

0 投票

1 回答

1364 浏览

python - Newspaper3k API 文章下载（）失败，HTTPSConnectionPool 端口=443 读取超时。（读取超时 = 7）在 URL 上

在 Firefox 中浏览时，我可以看到http://www.chicagotribune.com/ct-florida-school-shooter-nikolas-cruz-20180217-story.html 。但是，newspaper3k给了我这个错误：

我的代码是：

我认为像“renewIPAddress()”这样的东西可能会有所帮助，但我不确定如何将它准确地放入这段代码中。https://stackoverflow.com/a/50496768/2414957

python python-3.x https timeout newspaper3k

2020-07-23T18:49:01.893

0 投票

2 回答

118 浏览

web-scraping - 似乎无法访问元标记

我需要从新闻文章中抓取作者和日期，但我无法访问元标记中的某些信息。

当我打印出汤时，我可以在输出中获得 Meta 标签，所以我知道它们在那里，但我似乎无法用任何一种方法访问它们。

这是我到目前为止得到的输出：无检查日期，，，克里斯托弗·米姆斯

有什么想法吗？

web-scraping beautifulsoup newspaper3k

2020-08-22T16:54:46.803

0 投票

1 回答

440 浏览

python-3.x - 用于抓取文章的报纸 api

我已经使用 python 中的报纸 3k api 来抓取文章。我无法抓取印度时报的文章，从响应其余文章中获取发布日期为空，正在提供适当的文章。

python-3.x python-newspaper newspaper3k

2020-08-27T05:55:27.080

0 投票

1 回答

409 浏览

python - Python Newspapers3k 报纸库多线程无限期挂起

我正在做一个从游戏媒体网站中提取文章的项目，并且我正在做一个基本的测试运行，根据 VSCode 的调试器，在我设置多线程提取之后始终挂起（更改线程数无济于事）在两个站点上。老实说，我不确定我在这里做错了什么；我按照已经列出的示例进行操作。其中一个站点 Gamespot 甚至被用于某人的教程中，我尝试删除另一个站点（Polygon），但似乎没有帮助。我已经创建了一个虚拟环境，并在 Python 3.8 和 3.7 中都进行了尝试。所有依赖似乎都得到满足；我还在 repl dot it 中进行了测试并得到了相同的挂起。

我很想听到我只是做错了什么，所以我可以修复它；我真的很想在这些特定的网站和他们的文章上做一些数据科学！但似乎，至少对于 OS X 用户来说，多线程存在某种错误。这是我的代码：

当我最终放弃并在控制台打断时，这就是我得到的回报：

python python-3.x web-scraping python-newspaper newspaper3k

2020-08-29T14:49:09.347

1 2 3 4 5 6 7 8 9 10

问题标签 [newspaper3k]

Reference