问题标签 [python-newspaper]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

105 问题

0 投票

0 回答

69 浏览

python - 通过报纸3k减少内存使用

我正在尝试托管 a.newspaper spider 每天向我的手机发送新闻。但是我注意到删除 Article 对象并不会释放内存，每次运行会占用大约 200MB RAM。我目前正在一个单独的 .py 文件中运行蜘蛛以避免 RAM 已满。有没有其他方法可以实现这一目标？

2020-05-05T04:34:48.457

0 投票

1 回答

142 浏览

python - 为什么烧瓶应用程序需要这么长时间才能运行？

这是我的主页，运行需要 30 秒。有很多图，基于数据集的wordcloud有大约1000篇文章和一些关于sqlalchemy的基本操作。但它仍然不应该花费那么多时间。我怎样才能减少时间？

python flask topic-modeling python-newspaper

2020-05-12T08:47:58.227

0 投票

1 回答

88 浏览

python - 如何使用 txt 文件而不是文章？（Python）

我写了一个阅读文章和自学AI的代码。首先，我阅读带有 URL 的文章并下载它。然后我解析文章并将其用于我的 AI 学习文本。但是现在我想从 txt 文件中读取文本。如何将 txt 文件的文本分配给 Article 对象？（请检查代码以清除我的愿望）谢谢大家。

PS：我想使用 txt 文件而不是 URL。但我不会从代码中删除文章，因为它再次是必要的。

python python-3.x nltk python-newspaper newspaper3k

user12689308

2020-06-18T11:33:32.453

0 投票

1 回答

286 浏览

python - newsplease commoncrawl.py 文件中的异常

我正在使用从https://github.com/fhamborg/news-please克隆的 newsplease 库。我想使用 newsplease 从 commoncrawl 新闻数据集中获取新闻文章。我正在按照此处的说明运行 commoncrawl.py 文件。我使用了以下命令-

在执行以下命令时，我收到以下错误 -

这里有什么错误我该如何解决这个问题。

https://github.com/fhamborg/news-please表示采用 newsplease/examples/commoncrawl.py 中的配置部分。这是什么意思？
我已经从这个文件中复制了配置并粘贴到了newsplease/config目录中的config.cfg中。这是他们指示的吗？或者我在这里犯了一个错误。

我正在使用python 3.6。我的机器上只安装了一个 python。

python web-crawler python-newspaper common-crawl newspaper3k

2020-07-12T10:21:37.480

0 投票

2 回答

2196 浏览

python - Newspaper3k 的缺点：如何只抓取文章 HTML？Python

您好，非常感谢您的帮助，

我一直在使用 Python 和 Newspaper3k 来抓取网站，但我注意到有些函数……嗯……没有功能。特别是，我只能抓取大约 1/10 甚至更少网站的文章 HTML。这是我的代码：

发生的情况是，根据我的经验，100% 的时间都抓取了文章标题，但几乎没有成功抓取文章 HTML ，并且没有返回任何内容。我知道 Newspaper3k 是基于 BeautifulSoup 的，所以我不希望它也能工作并且有点卡住了。有任何想法吗？

编辑：我尝试抓取的大多数网站都是西班牙语

python html python-3.x web-scraping python-newspaper

2020-07-16T20:40:44.143

0 投票

1 回答

440 浏览

python-3.x - 用于抓取文章的报纸 api

我已经使用 python 中的报纸 3k api 来抓取文章。我无法抓取印度时报的文章，从响应其余文章中获取发布日期为空，正在提供适当的文章。

python-3.x python-newspaper newspaper3k

2020-08-27T05:55:27.080

0 投票

1 回答

409 浏览

python - Python Newspapers3k 报纸库多线程无限期挂起

我正在做一个从游戏媒体网站中提取文章的项目，并且我正在做一个基本的测试运行，根据 VSCode 的调试器，在我设置多线程提取之后始终挂起（更改线程数无济于事）在两个站点上。老实说，我不确定我在这里做错了什么；我按照已经列出的示例进行操作。其中一个站点 Gamespot 甚至被用于某人的教程中，我尝试删除另一个站点（Polygon），但似乎没有帮助。我已经创建了一个虚拟环境，并在 Python 3.8 和 3.7 中都进行了尝试。所有依赖似乎都得到满足；我还在 repl dot it 中进行了测试并得到了相同的挂起。

我很想听到我只是做错了什么，所以我可以修复它；我真的很想在这些特定的网站和他们的文章上做一些数据科学！但似乎，至少对于 OS X 用户来说，多线程存在某种错误。这是我的代码：

当我最终放弃并在控制台打断时，这就是我得到的回报：

python python-3.x web-scraping python-newspaper newspaper3k

2020-08-29T14:49:09.347

0 投票

1 回答

164 浏览

python-newspaper - Newspaper3k：如何检索已兑现的文章？

该文档说，默认情况下，报纸会缓存所有以前提取的文章并删除它已经提取的任何文章。

好的，但是如果我建立一个网站，它什么也没说，我如何检索兑现的文章？

python-newspaper newspaper3k

2020-08-31T13:53:38.780

0 投票

2 回答

801 浏览

python - 使用报纸从 HTML 中提取图像

我不能像通常那样下载文章来实例化 Article 对象，如下所示：

但是，我可以从请求中获取 HTML。我可以使用这个原始 HTML 并以某种方式将其传递给 Newspaper 以从中提取图像吗？（以下是尝试，但不起作用）。谢谢

python extract python-newspaper newspaper3k

2020-09-11T07:26:18.680

0 投票

1 回答

100 浏览

python - 为什么paper3k 会区分http://cnn.com 和http://www.cnn.com？

当我运行 Python 代码时

在 Python 3 中，我得到输出 897（即，报纸 3k 发现 897 页被认为是域http://cnn.com上的文章），但是当我运行时

（即，有一个额外的www.；没有其他任何改变）我只得到 895。当我在这两个 URL 之间来回切换时，这些数字是一致的。www.URL中的实际重要吗？如果是这样，为什么在使用报纸 3k 库时，这两个 URL 的文章计数变得如此相似？否则，为什么文章数不完全相同？

python url python-newspaper newspaper3k

2020-09-13T20:18:26.507

1 2 3 4 5 6 7 8 9 10

问题标签 [python-newspaper]

Reference