问题标签 [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
50 浏览

python-3.x - 使用 PYTHON 仅从包含多个 tumblr 帖子的 URL 中提取第一个帖子内容

我正在尝试使用 python3 中的报纸包从给定的输入 URL 中仅提取实际内容/文本。我已经成功这样做了,但是我的一个 URL 包含同一页面中的多个 tumblr 帖子。

在下面的 URL 中,我只想要第一篇文章的内容,即以“卡纳塔克邦议会选举 2018 年结果接近被称为投票计数正在周二进行中”开头的段落,

在我从上面的 URL 而不是第一篇文章中提取内容的工作中,我得到了第 6 篇文章内容作为我的输出。但这不是我需要的。我需要第一篇文章作为我的输出。谁能帮助我实现这一目标?

这是我的代码:

0 投票
1 回答
190 浏览

python - 我想获得 CNN 新闻文章的所有链接

我想获得 CNN 新闻文章的所有链接

例如

在这个链接

我可以显示最新的 10 条新闻

为了获得新闻链接,我尝试了两种方法。

但我无法获得新闻链接

如果你转到下一页,我只能得到相同的链接

0 投票
2 回答
430 浏览

python-3.x - 在 Newspaper3k 中解析来自 MySQL 的 HTML 字符串

我有一个 MySQL 表,里面装满了抓取的新闻文章 HTML 数据。我想用我之前做过很多次的报纸3k模块提取文章文本。

现在唯一的区别是我没有提取 URL 并使用 Newspaper 解析结果,而是从 MySQL 数据库中提取原始 HTML 字符串。

不知何故,报纸(或鹅)不喜欢数据库中的字符串,因为返回的 article.text 总是''.

但是,当我使用带有 requests.get 的 URL 并将原始 HTML 提供给 Newspaper 时,它可以工作。所以我猜测来自 MySQL 的数据的格式/编码不同,因此 Newspaper 无法将其理解为 HTML?!

当我从数据库打印数据时,它看起来像:

虽然通过 requests.get 的 html 看起来像:

0 投票
4 回答
1683 浏览

python - 一次从 python 字符串中删除所有可能不需要的字符

我正在使用 python 模块newspaper3k并使用其 web url 提取文章摘要。作为,

给,

我只想删除所有不需要的字符,例如\xe2\x80\x99s. 我避免使用多种replace功能。我想要的只是:-

0 投票
0 回答
436 浏览

python - 使用永无止境的线程处理带有 Newspaper3k (python3 lib) 的 URL 列表

脚本读取 URL 列表,我将该列表传递到队列中,然后使用 python-newspaper3k 处理它们。我有很多不同的 URL,其中许多不是很受欢迎的网站。问题是处理永远不会结束。有时它已经结束了,但是有些进程处理了一些问题而停止。问题是当 python-newspaper 尝试解析每个 HTML 时。代码是

在这里,我将 URL 加载到队列中,然后使用报纸下载并解析每个 HTML。

然后我做线程

有没有办法找到哪个 URL 有问题并且需要很长时间才能退出?如果我找不到 URL,是否可以停止线程守护程序?

0 投票
1 回答
133 浏览

python - 使用报纸模块的 Ubuntu 脚本导入错误

我有一个将在本地运行的脚本,但不在我的 Ubuntu 服务器上。其他脚本在这两个平台上都可以正常工作,但是当我尝试在 Ubuntu 上运行它时,这个特定的脚本会引发导入错误。

其他脚本工作正常,在我尝试使用报纸库之前我没有遇到这个问题。我尝试了以下方法:

  • pip3 安装--升级报纸3k
  • pip3 安装--升级 lxml
  • /usr/local/lib/python3.5/site-packages添加到 $PATH
  • 在虚拟环境中运行和关闭
  • 直接在脚本中导入 lxml.etree
  • 在 python3.5 终端上运行 - 没有抛出错误
  • apt-get 删除 python3.5,pip3 卸载报纸 3k,pip3 安装报纸 3k,apt-get 安装 python3.5
  • 检查站点包文件夹的权限
  • 勾选了python3.5使用的默认库路径
  • 确保 hashbang #!/usr/bin/env python3.5位于所有文件的顶部
  • sudo apt-get install python-lxml

我被难住了。任何指导将不胜感激。


编辑:我还按照此处列出的说明进行操作:https : //newspaper.readthedocs.io/en/latest/ 除以下内容外,所有内容均已正确下载:

0 投票
2 回答
264 浏览

python - 报纸图书馆

作为使用 python 主题的绝对新手,我在使用报纸库扩展时偶然发现了一些困难。我的目标是定期使用报纸扩展来下载一个名为“tagesschau”的德国新闻网站的所有新文章以及来自 CNN 的所有文章,以构建一个我可以在几年内分析的数据堆栈。如果我做对了,我可以使用以下命令将所有文章下载并抓取到 python 库中。

如果这是下载所有文章的正确方法,那么我如何在 python 之外提取和保存这些文章?或者将这些文章保存在 python 中,以便在我再次重新启动 python 时可以重用它们?

谢谢你的帮助。

0 投票
1 回答
393 浏览

python - 为什么python模块newspaper3k只返回腾讯、新浪和wallstreetcn的0篇文章?

报纸 3k 图书馆很棒。我对它上瘾了。

请问,为什么Source 和build() 只返回大部分中国财经新闻页面的0 篇文章?

我的代码有问题吗?

0 投票
2 回答
3527 浏览

conda - PermissionError:无法访问该文件,因为它正在被另一个进程使用,即使是管理员

我正在尝试安装一个名为报纸的库。但是我遇到了权限错误问题,因为似乎使用了另一个进程正在卸载的包:包'defaults :: qt-5.9.6-vc14h1e9a669_2'。

我以管理员身份启动了 Annaconda 命令终端,但它也没有工作。

0 投票
1 回答
42 浏览

python - 通过从报纸上收集文本重新输入代码时,除了第一个链接之外,所有内容都被忽略了

我需要从多个 URL 收集文章的文本。输入后代码功能完美。但是,通过重新输入 print(first_article.text) 以将输出导出为 CSV,只会出现第一篇文章。发生这种情况是否有原因?如何从所有文件中导出文本?

参考:使用报纸从多个网址下载文章