问题标签 [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
84 浏览

python - Python报纸库结果不一致?

我正在使用 Anaconda3,安装报纸。看起来很简单,但结果却不一致。

http://newspaper.readthedocs.io/en/latest/

这段简单的代码有时会返回所有结果,有时则不返回任何结果。

有人用过这个库或知道更好的库来抓取新闻网站吗?我宁愿不必自己编写解析器,但如果归根结底,我应该使用什么?

0 投票
1 回答
394 浏览

python - Newspaper3k 从 archive.org waybackmachine 页面返回 0 篇文章,而实时页面按预期工作

当尝试在 archive.org 的存档页面 url 上使用 python 库报纸3时,它无法获取任何文章。但是,当在同一个实时页面 url 上使用它时,它可以正常工作。请看下面:

即使使用id返回原始修改页面的特殊技巧也不起作用:

任何帮助将不胜感激,谢谢!

0 投票
0 回答
430 浏览

python - python,报纸,不可散列的类型:'tzutc'并写入数据框

我有一堆网址,我想下载文本并进行进一步分析。我是蟒蛇新手。我有两个问题:(1)我有一个非常奇怪的类型错误;(2) 结果没有写入数据帧。我的代码如下:

我的输出包括:

[] http://100seguro.com.ar/telefonica-pone-en-venta-su-aseguradora-antares-vida/ 追溯(最近一次通话最后):

文件“”,第 1 行,在 runfile('C:/Users/theiman/Desktop/untitled7.py', wdir='C:/Users/theiman/Desktop')

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py”,第 710 行,运行文件 execfile(文件名,命名空间)

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\spyder\utils\site\sitecustomize.py”,第 101 行,在 execfile exec(compile(f.read(), filename , 'exec'), 命名空间)

文件“C:/Users/theiman/Desktop/untitled7.py”,第 57 行,在 df.loc[index] = [d, datetime.datetime.now().date(), article.title, article.text, article.keywords,article.url]

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\indexing.py”,第 179 行,在setitem self._setitem_with_indexer(indexer, value)

_setitem_with_indexer 中的文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\indexing.py”,第 425 行 self.obj._data = self.obj.append(value )。_数据

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\frame.py”,第 4533 行,附加其他 = other._convert(datetime=True, timedelta=True )

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\generic.py”,第 3472 行,在 _convert copy=copy))。完成(自己)

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\internals.py”,第 3227 行,转换返回 self.apply('convert', **kwargs)

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\internals.py”,第 3091 行,在 apply = getattr(b, f)(**kwargs)

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\internals.py”,第 1892 行,在 convert values = fn(values.ravel(), **fn_kwargs )

文件“C:\Users\theiman\AppData\Local\Continuum\anaconda3\lib\site-packages\pandas\core\dtypes\cast.py”,第 740 行,在 soft_convert_objects 值 = lib.maybe_convert_objects(values, convert_datetime=datetime )

文件“pandas/_libs/src\inference.pyx”,第 1204 行,在 pandas._libs.lib.maybe_convert_objects

TypeError:不可散列的类型:'tzutc'

关于出了什么问题以及如何解决它的任何想法?谢谢!!

0 投票
1 回答
82 浏览

python - Python Flask 应用程序直接返回与 python 不同的(抓取的)字符串

我在我正在开发的 Flask 应用程序中发现了一个奇怪的东西。Flask API 旨在接收新闻文章 url,抓取它(使用报纸库)并预测抓取文本的类别。

但是,当我直接在 Python (Spyder) 中运行 Crawler 时,它会按预期返回文章文本。

这就像一个魅力。如果我现在在 Flask 应用程序中运行同一段代码,它会生成一些其他字符串,这些字符串属于 Crawled url 的导航:

基本上,第一个片段返回完整的文章文本,而第二个片段返回:

Sie befinden sich hier: DevOps > 配置管理 Sie sind noch nicht angelmeldet 注册 | 通讯

我希望我把问题说清楚了。如果不是,请告诉我。

任何想法发生了什么?

0 投票
1 回答
469 浏览

python - Python报包返回哪些文章?

我的基本问题是 Python 中的报纸包如何确定它返回的网址/文章?有人会认为它只是返回您提供的 url 中包含的所有文章链接,但它似乎并没有那样工作。例如,如果您使用“ http://www.cnn.com ”和“ https://www.cnn.com/politics ”,您会得到完全相同的文章返回。我认为对于后者,您应该只在政治页面上获得文章,但情况似乎并非如此。

那么它实际上在做什么呢?它只是从主页获取所有文章吗?

这是我用来测试的一个例子(我使用了python 3.6.2版):

0 投票
0 回答
517 浏览

python - python报纸 - 如果URL不是英文,则无法提取文章

我正在尝试使用 python报纸模块获取新闻文章的内容。我可以使用以下代码找到新闻项目的正文。该代码使用feedparserfeed_url解析变量中的提要 URL ,然后尝试使用报纸模块查找新闻正文和发布日期。

我在代码中提到了变量的 2 个不同值feed_url- 一个来自extremetch网站,另一个来自prothomalo网站。

例如,extremetech 有一个新闻项目(我通过它feedparser.parse ),其 URL 为 https://www.extremetech.com/computing/263951-mit-announces-new-neural-network-processor-cuts-power-消费-95。我可以轻松获取此 URL 的新闻正文和发布日期。

但是例如 prothomalo 有一个新闻项目,其 URL(来自feedparser.parse)为http://www.prothomalo.com/sports/article/1432086/%E0%A6%B8%E0%A6%B0%E0%A7%8D %E0%A6%AC%E0%A7%8B%E0%A6%9A%E0%A7%8D%E0%A6%9A-%E0%A6%B8%E0%A7%8D%E0%A6%95% E0%A7%8B%E0%A6%B0-%E0%A6%97%E0%A7%9C%E0%A7%87%E0%A6%93-%E0%A6%B9%E0%A6%BE% E0%A6%B0

但实际的 URL 在 prothomalo 网站上看起来并不如此。您可以访问该 URL,会发现该 URL 已更改为孟加拉语。我认为这种加密 (?) URL 背后的原因是 URL 有一些部分是孟加拉语的。这里的内容也是孟加拉语。

Python 报纸模块可以从 extretemetech 网站而不是从 prothomalo 中提取内容和发布日期。失败是由于 prothomalo URL 中的非英文字符造成的吗?

我怎样才能从 prothomalo 站点(即可能包含非英语 URL 的站点)获取新闻内容、发布日期等?

编辑 1: 我可以使用以下行将 prothomalo 的编码 URL 解码为原始孟加拉语:post_link =urllib.parse.unquote(post.link)。我仍然无法获得内容和发布日期。

0 投票
0 回答
233 浏览

python - 使用 Newspaper3k 的外部文件

我正在执行一些抓取和摘要任务,并且发现报纸非常适合我的(大部分)需求。我有一系列 pdf 文件,我还需要查看并执行类似的任务。我可以找到其他应用程序来打开并从中提取故事,希望直接向报纸提供文本并让它做它的事情......但是,到目前为止我一直无法弄清楚如何做到这一点。有什么建议么?

0 投票
1 回答
99 浏览

python - Python 报纸副标题

我想提取这篇文章和其他文章的小标题: https ://www.dr.dk/nyheder/regionale/trekanten/legos-regnskab-viser-tilbagegang

那就是:“Lego har netop præsenteret regnskabet for 2017, og kurven peger nedad。”

但是,python 模块 Newspaper 似乎不能做到这一点。

我错过了什么吗?还有其他模块可以吗?我也尝试过可读性和 html2text。

我的代码:

0 投票
2 回答
567 浏览

python - Python:报纸模块 - 使用 html 标签提取文本

我做了一个代码:

但是我需要带有 html 标签的文本,例如,我需要文本中的 img 标签。

0 投票
1 回答
222 浏览

python - 通过pandas DataFrame编写一个循环,提取值(一个url链接),然后通过一个函数传递每个url链接元素

我有兴趣在我当前存储在 (nx1) 数据帧中的多个链接 (n) 上运行 Python Library Newspaper 中的 article.text()(我们称之为数据帧 df)。然后我想将结果存储在 df 的另一列中。

这是我目前编写的代码:

功能:

将其应用于数据框:

我认为问题在于“url = row”这一行,但我不确定。如果您可以建议如何通过 pandas DataFrame 编写循环,从中提取值(一个 url 链接),然后将该链接传递给报纸分析函数,我将不胜感激。