问题标签 [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
69 浏览

python - 通过报纸3k减少内存使用

我正在尝试托管 a.newspaper spider 每天向我的手机发送新闻。但是我注意到删除 Article 对象并不会释放内存,每次运行会占用大约 200MB RAM。我目前正在一个单独的 .py 文件中运行蜘蛛以避免 RAM 已满。有没有其他方法可以实现这一目标?

0 投票
1 回答
142 浏览

python - 为什么烧瓶应用程序需要这么长时间才能运行?

这是我的主页,运行需要 30 秒。有很多图,基于数据集的wordcloud有大约1000篇文章和一些关于sqlalchemy的基本操作。但它仍然不应该花费那么多时间。我怎样才能减少时间?

0 投票
1 回答
88 浏览

python - 如何使用 txt 文件而不是文章?(Python)

我写了一个阅读文章和自学AI的代码。首先,我阅读带有 URL 的文章并下载它。然后我解析文章并将其用于我的 AI 学习文本。但是现在我想从 txt 文件中读取文本。如何将 txt 文件的文本分配给 Article 对象?(请检查代码以清除我的愿望)谢谢大家。

PS:我想使用 txt 文件而不是 URL。但我不会从代码中删除文章,因为它再次是必要的。

0 投票
1 回答
286 浏览

python - newsplease commoncrawl.py 文件中的异常

我正在使用从https://github.com/fhamborg/news-please克隆的 newsplease 库。我想使用 newsplease 从 commoncrawl 新闻数据集中获取新闻文章。我正在按照此处的说明运行 commoncrawl.py 文件。我使用了以下命令-

在执行以下命令时,我收到以下错误 -

这里有什么错误我该如何解决这个问题。

https://github.com/fhamborg/news-please表示采用 newsplease/examples/commoncrawl.py 中的配置部分。这是什么意思 ?
我已经从这个文件中复制了配置并粘贴到 了newsplease/config目录中的config.cfg中。这是他们指示的吗?或者我在这里犯了一个错误。

我正在使用python 3.6。我的机器上只安装了一个 python。

0 投票
2 回答
2196 浏览

python - Newspaper3k 的缺点:如何只抓取文章 HTML?Python

您好,非常感谢您的帮助,

我一直在使用 Python 和 Newspaper3k 来抓取网站,但我注意到有些函数……嗯……没有功能。特别是,我只能抓取大约 1/10 甚至更少网站的文章 HTML。这是我的代码:

发生的情况是,根据我的经验,100% 的时间都抓取了文章标题,但几乎没有成功抓取文章 HTML ,并且没有返回任何内容。我知道 Newspaper3k 是基于 BeautifulSoup 的,所以我不希望它也能工作并且有点卡住了。有任何想法吗?

编辑:我尝试抓取的大多数网站都是西班牙语

0 投票
1 回答
440 浏览

python-3.x - 用于抓取文章的报纸 api

我已经使用 python 中的报纸 3k api 来抓取文章。我无法抓取印度时报的文章,从响应其余文章中获取发布日期为空,正在提供适当的文章。

0 投票
1 回答
409 浏览

python - Python Newspapers3k 报纸库多线程无限期挂起

我正在做一个从游戏媒体网站中提取文章的项目,并且我正在做一个基本的测试运行,根据 VSCode 的调试器,在我设置多线程提取之后始终挂起(更改线程数无济于事)在两个站点上。老实说,我不确定我在这里做错了什么;我按照已经列出的示例进行操作。其中一个站点 Gamespot 甚至被用于某人的教程中,我尝试删除另一个站点(Polygon),但似乎没有帮助。我已经创建了一个虚拟环境,并在 Python 3.8 和 3.7 中都进行了尝试。所有依赖似乎都得到满足;我还在 repl dot it 中进行了测试并得到了相同的挂起。

我很想听到我只是做错了什么,所以我可以修复它;我真的很想在这些特定的网站和他们的文章上做一些数据科学!但似乎,至少对于 OS X 用户来说,多线程存在某种错误。这是我的代码:

当我最终放弃并在控制台打断时,这就是我得到的回报:

0 投票
1 回答
164 浏览

python-newspaper - Newspaper3k:如何检索已兑现的文章?

文档说,默认情况下,报纸会缓存所有以前提取的文章并删除它已经提取的任何文章。

好的,但是如果我建立一个网站,它什么也没说,我如何检索兑现的文章?

0 投票
2 回答
801 浏览

python - 使用报纸从 HTML 中提取图像

我不能像通常那样下载文章来实例化 Article 对象,如下所示:

但是,我可以从请求中获取 HTML。我可以使用这个原始 HTML 并以某种方式将其传递给 Newspaper 以从中提取图像吗?(以下是尝试,但不起作用)。谢谢

0 投票
1 回答
100 浏览

python - 为什么paper3k 会区分http://cnn.com 和http://www.cnn.com?

当我运行 Python 代码时

在 Python 3 中,我得到输出 897(即,报纸 3k 发现 897 页被认为是域http://cnn.com上的文章),但是当我运行时

(即,有一个额外的www.;没有其他任何改变)我只得到 895。当我在这两个 URL 之间来回切换时,这些数字是一致的。www.URL中的实际重要吗?如果是这样,为什么在使用报纸 3k 库时,这两个 URL 的文章计数变得如此相似?否则,为什么文章数不完全相同?