问题标签 [python-newspaper]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

105 问题

0 投票

0 回答

50 浏览

python-3.x - 使用 PYTHON 仅从包含多个 tumblr 帖子的 URL 中提取第一个帖子内容

我正在尝试使用 python3 中的报纸包从给定的输入 URL 中仅提取实际内容/文本。我已经成功这样做了，但是我的一个 URL 包含同一页面中的多个 tumblr 帖子。

在下面的 URL 中，我只想要第一篇文章的内容，即以“卡纳塔克邦议会选举 2018 年结果接近被称为投票计数正在周二进行中”开头的段落，

在我从上面的 URL 而不是第一篇文章中提取内容的工作中，我得到了第 6 篇文章内容作为我的输出。但这不是我需要的。我需要第一篇文章作为我的输出。谁能帮助我实现这一目标？

这是我的代码：

2018-08-24T10:45:41.020

0 投票

1 回答

190 浏览

python - 我想获得 CNN 新闻文章的所有链接

我想获得 CNN 新闻文章的所有链接

例如

在这个链接

我可以显示最新的 10 条新闻

为了获得新闻链接，我尝试了两种方法。

和

但我无法获得新闻链接

如果你转到下一页，我只能得到相同的链接

python beautifulsoup python-newspaper

2018-08-25T12:47:15.060

0 投票

2 回答

430 浏览

python-3.x - 在 Newspaper3k 中解析来自 MySQL 的 HTML 字符串

我有一个 MySQL 表，里面装满了抓取的新闻文章 HTML 数据。我想用我之前做过很多次的报纸3k模块提取文章文本。

现在唯一的区别是我没有提取 URL 并使用 Newspaper 解析结果，而是从 MySQL 数据库中提取原始 HTML 字符串。

不知何故，报纸（或鹅）不喜欢数据库中的字符串，因为返回的 article.text 总是''.

但是，当我使用带有 requests.get 的 URL 并将原始 HTML 提供给 Newspaper 时，它可以工作。所以我猜测来自 MySQL 的数据的格式/编码不同，因此 Newspaper 无法将其理解为 HTML？！

当我从数据库打印数据时，它看起来像：

虽然通过 requests.get 的 html 看起来像：

python-3.x python-newspaper

2018-09-04T10:20:50.673

0 投票

4 回答

1683 浏览

python - 一次从 python 字符串中删除所有可能不需要的字符

我正在使用 python 模块newspaper3k并使用其 web url 提取文章摘要。作为，

给，

我只想删除所有不需要的字符，例如\xe2\x80\x99s. 我避免使用多种replace功能。我想要的只是：-

python string python-3.x unicode python-newspaper

2018-10-02T07:09:48.357

0 投票

0 回答

436 浏览

python - 使用永无止境的线程处理带有 Newspaper3k (python3 lib) 的 URL 列表

脚本读取 URL 列表，我将该列表传递到队列中，然后使用 python-newspaper3k 处理它们。我有很多不同的 URL，其中许多不是很受欢迎的网站。问题是处理永远不会结束。有时它已经结束了，但是有些进程处理了一些问题而停止。问题是当 python-newspaper 尝试解析每个 HTML 时。代码是

在这里，我将 URL 加载到队列中，然后使用报纸下载并解析每个 HTML。

然后我做线程

有没有办法找到哪个 URL 有问题并且需要很长时间才能退出？如果我找不到 URL，是否可以停止线程守护程序？

python python-3.x python-multithreading python-newspaper

2018-10-10T10:26:11.850

0 投票

1 回答

133 浏览

python - 使用报纸模块的 Ubuntu 脚本导入错误

我有一个将在本地运行的脚本，但不在我的 Ubuntu 服务器上。其他脚本在这两个平台上都可以正常工作，但是当我尝试在 Ubuntu 上运行它时，这个特定的脚本会引发导入错误。

其他脚本工作正常，在我尝试使用报纸库之前我没有遇到这个问题。我尝试了以下方法：

pip3 安装--升级报纸3k
pip3 安装--升级 lxml
将/usr/local/lib/python3.5/site-packages添加到 $PATH
在虚拟环境中运行和关闭
直接在脚本中导入 lxml.etree
在 python3.5 终端上运行 - 没有抛出错误
apt-get 删除 python3.5，pip3 卸载报纸 3k，pip3 安装报纸 3k，apt-get 安装 python3.5
检查站点包文件夹的权限
勾选了python3.5使用的默认库路径
确保 hashbang #!/usr/bin/env python3.5位于所有文件的顶部
sudo apt-get install python-lxml

我被难住了。任何指导将不胜感激。

编辑：我还按照此处列出的说明进行操作：https : //newspaper.readthedocs.io/en/latest/ 除以下内容外，所有内容均已正确下载：

python ubuntu lxml python-import python-newspaper

2018-10-24T16:38:16.083

0 投票

2 回答

264 浏览

python - 报纸图书馆

作为使用 python 主题的绝对新手，我在使用报纸库扩展时偶然发现了一些困难。我的目标是定期使用报纸扩展来下载一个名为“tagesschau”的德国新闻网站的所有新文章以及来自 CNN 的所有文章，以构建一个我可以在几年内分析的数据堆栈。如果我做对了，我可以使用以下命令将所有文章下载并抓取到 python 库中。

如果这是下载所有文章的正确方法，那么我如何在 python 之外提取和保存这些文章？或者将这些文章保存在 python 中，以便在我再次重新启动 python 时可以重用它们？

谢谢你的帮助。

python python-newspaper

2018-11-13T21:02:20.003

0 投票

1 回答

393 浏览