问题标签 [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1397 浏览

python - 用于情绪分析的新闻聚合器

我正在用 python 写一个小新闻情绪分析应用程序。我想准备一个新闻文章数据库来训练我的分类器,所以我想知道从网络上获取新闻文章的最佳做法是什么。我查看了报纸,它看起来像一个很酷的模块并且非常通用,但我正在寻找一种获取旧新闻文章的方法 - 即 2014 年的所有新闻文章。报纸只使用永远不会太远的 RSS 提要。另一种选择是为谷歌新闻编写一个抓取工具,并在 url 中按日期过滤,或者使用 NYT 等出版商的 API(他们有一个 API)。

创建这样的新闻文章数据库的最佳方法是什么?网络上是否有可用于获取文章的工具/数据库?

0 投票
1 回答
1558 浏览

python - 使用报纸从多个网址下载文章

我一直在尝试从网页(在线时代,德国报纸)中提取多篇文章,为此我有一个我想从中下载文章的网址列表,因此我不需要抓取网页的网址。

python 的报纸包在解析单个页面的内容方面做得非常好。我需要做的是自动更改网址,直到下载所有文章。不幸的是,我的编码知识有限,还没有找到办法。如果有人可以帮助我,我将不胜感激。

我尝试的其中一件事是:

这似乎可以完成这项工作,尽管我希望有一种更简单的方法,涉及更少的苹果和香蕉。

0 投票
1 回答
696 浏览

python - 使用报纸库从使用 pickle 导入的列表中解析 URL 时遇到问题

我一直在尝试传递一个 url 列表来从页面中提取文章。如果我建立一个实际的 url 列表(例如 lista = ' http://www.zeit.de ',...),提取(使用报纸)工作得很好。但是,即使打印列表有效,从另一个文件中获取列表也不起作用。以下是代码:

上面的 MCVE 工作正常。当我解开我的列表时,将其打印到控制台会按我的预期工作,例如使用以下脚本:

List 输出的示例如下所示

但列表中有数千个网址。

显示的错误消息并没有告诉我太多(下面的完整追溯)

我已经尝试解决这个问题好几个小时了,但我还没有找到办法。任何帮助将不胜感激。

0 投票
2 回答
1485 浏览

python - 安装报纸时出现 ImportError

我对 python 很陌生,正在尝试导入报纸以提取文章。每当我尝试导入模块时,我都会得到ImportError: cannot import name images. 有人遇到这个问题并找到解决方案吗?

0 投票
2 回答
7624 浏览

python - 如何使用Python报库?

我正在尝试制作网络解析器并保存它。我找到了报纸图书馆。我正在使用 Eclipse。但是我没有得到好的结果。请帮我。

这是一条错误消息:

0 投票
0 回答
134 浏览

python - 如何提取中文文章

这似乎是最受尝试的维护。此外,尝试过鹅和锅炉管都不起作用。

后来也想翻译:

0 投票
1 回答
1391 浏览

python - 报纸图书馆的出版日期总是返回无

我最近一直在使用报纸图书馆。我发现的唯一问题是当我这样做时,article.publish_date我总是得到None.

我正在浏览一堆 URL。你可以看到我publish_date在返回之前打印出来。

正如我之前所说:

所有其他功能都按预期工作。该站点的文档查看了一个示例,

我正在这样做,我很确定。我不确定是否有人注意到我的问题。

0 投票
0 回答
202 浏览

python - 一台机器上的 Python 导入错误,但另一台机器上没有

我正在使用一个名为报纸的库并将我的应用程序部署到弹性 beantalk。它在本地运行良好,但在服务器上它不起作用并抛出此错误:

两台机器都运行 python 2.7.9。
问题可能是什么?

只是为了确认一下,我正在使用 requirements.txt 来加载依赖项,并且它们在两台机器上都加载得很好。

0 投票
0 回答
1308 浏览

python - Python报库问题和错误

我正在使用在 Linux vps 服务器上运行的 Python 报纸库:

  • 第一个问题与报纸网站有关,我试图解析其文章说我正在使用广告拦截器,因此他们不显示任何文章,因为他们希望我停用它。我显然没有运行它。似乎需要在请求的标头中添加一些内容,但我不确定是什么或如何。一些帮助将不胜感激。

  • 第二个与我在运行脚本时遇到的一些错误有关。

错误是:

如果我遗漏了什么,请告诉我,我可以更新。我的代码如下:

0 投票
1 回答
4923 浏览

python - Python包(报纸)安装错误

尝试安装失败并出现以下错误的软件包。我用谷歌搜索并安装了 setuptools - 仍然遇到同样的错误。

命令:pip install newspaper