问题标签 [python-newspaper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 通过报纸3k减少内存使用
我正在尝试托管 a.newspaper spider 每天向我的手机发送新闻。但是我注意到删除 Article 对象并不会释放内存,每次运行会占用大约 200MB RAM。我目前正在一个单独的 .py 文件中运行蜘蛛以避免 RAM 已满。有没有其他方法可以实现这一目标?
python - 为什么烧瓶应用程序需要这么长时间才能运行?
这是我的主页,运行需要 30 秒。有很多图,基于数据集的wordcloud有大约1000篇文章和一些关于sqlalchemy的基本操作。但它仍然不应该花费那么多时间。我怎样才能减少时间?
python - 如何使用 txt 文件而不是文章?(Python)
我写了一个阅读文章和自学AI的代码。首先,我阅读带有 URL 的文章并下载它。然后我解析文章并将其用于我的 AI 学习文本。但是现在我想从 txt 文件中读取文本。如何将 txt 文件的文本分配给 Article 对象?(请检查代码以清除我的愿望)谢谢大家。
PS:我想使用 txt 文件而不是 URL。但我不会从代码中删除文章,因为它再次是必要的。
python - newsplease commoncrawl.py 文件中的异常
我正在使用从https://github.com/fhamborg/news-please克隆的 newsplease 库。我想使用 newsplease 从 commoncrawl 新闻数据集中获取新闻文章。我正在按照此处的说明运行 commoncrawl.py 文件。我使用了以下命令-
在执行以下命令时,我收到以下错误 -
这里有什么错误我该如何解决这个问题。
https://github.com/fhamborg/news-please表示采用 newsplease/examples/commoncrawl.py 中的配置部分。这是什么意思 ?
我已经从这个文件中复制了配置并粘贴到
了newsplease/config目录中的config.cfg中。这是他们指示的吗?或者我在这里犯了一个错误。
我正在使用python 3.6。我的机器上只安装了一个 python。
python - Newspaper3k 的缺点:如何只抓取文章 HTML?Python
您好,非常感谢您的帮助,
我一直在使用 Python 和 Newspaper3k 来抓取网站,但我注意到有些函数……嗯……没有功能。特别是,我只能抓取大约 1/10 甚至更少网站的文章 HTML。这是我的代码:
发生的情况是,根据我的经验,100% 的时间都抓取了文章标题,但几乎没有成功抓取文章 HTML ,并且没有返回任何内容。我知道 Newspaper3k 是基于 BeautifulSoup 的,所以我不希望它也能工作并且有点卡住了。有任何想法吗?
编辑:我尝试抓取的大多数网站都是西班牙语
python-3.x - 用于抓取文章的报纸 api
我已经使用 python 中的报纸 3k api 来抓取文章。我无法抓取印度时报的文章,从响应其余文章中获取发布日期为空,正在提供适当的文章。
python - Python Newspapers3k 报纸库多线程无限期挂起
我正在做一个从游戏媒体网站中提取文章的项目,并且我正在做一个基本的测试运行,根据 VSCode 的调试器,在我设置多线程提取之后始终挂起(更改线程数无济于事)在两个站点上。老实说,我不确定我在这里做错了什么;我按照已经列出的示例进行操作。其中一个站点 Gamespot 甚至被用于某人的教程中,我尝试删除另一个站点(Polygon),但似乎没有帮助。我已经创建了一个虚拟环境,并在 Python 3.8 和 3.7 中都进行了尝试。所有依赖似乎都得到满足;我还在 repl dot it 中进行了测试并得到了相同的挂起。
我很想听到我只是做错了什么,所以我可以修复它;我真的很想在这些特定的网站和他们的文章上做一些数据科学!但似乎,至少对于 OS X 用户来说,多线程存在某种错误。这是我的代码:
当我最终放弃并在控制台打断时,这就是我得到的回报:
python-newspaper - Newspaper3k:如何检索已兑现的文章?
该文档说,默认情况下,报纸会缓存所有以前提取的文章并删除它已经提取的任何文章。
好的,但是如果我建立一个网站,它什么也没说,我如何检索兑现的文章?
python - 使用报纸从 HTML 中提取图像
我不能像通常那样下载文章来实例化 Article 对象,如下所示:
但是,我可以从请求中获取 HTML。我可以使用这个原始 HTML 并以某种方式将其传递给 Newspaper 以从中提取图像吗?(以下是尝试,但不起作用)。谢谢
python - 为什么paper3k 会区分http://cnn.com 和http://www.cnn.com?
当我运行 Python 代码时
在 Python 3 中,我得到输出 897(即,报纸 3k 发现 897 页被认为是域http://cnn.com上的文章),但是当我运行时
(即,有一个额外的www.
;没有其他任何改变)我只得到 895。当我在这两个 URL 之间来回切换时,这些数字是一致的。www.
URL中的实际重要吗?如果是这样,为什么在使用报纸 3k 库时,这两个 URL 的文章计数变得如此相似?否则,为什么文章数不完全相同?