问题标签 [python-newspaper]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
95 浏览

python - 如何从迭代中获取输出,将其存储在字典中

所以我有这个使用 Google API 和报纸的脚本(运行 Python 3.5)。它在谷歌搜索与睡眠有关的文章。然后使用报纸,我遍历这些 URL。我要求 Newspaper 做的只是返回该文章的关键字列表,我将其称为 write article.keywords

返回的关键字(对于给定的文章)如下所示:

但是我想为所有结果创建一个包含所有关键字的字典:也就是说,每个被迭代的文章的关键字。我该怎么做?

0 投票
1 回答
2227 浏览

python - Python 3:如何获取包含某个关键字的新闻文章

我正在尝试编写一个小的网络应用程序,它返回涉及关键字的新闻文章的情绪。

我使用了 TextBlob 和 Newspaper3K python 3 包。我试图将 Newspaper3K 的 url 字符串作为 Google 新闻搜索查询的结果,但报纸包似乎只是重定向到 Google 新闻的“主页”。

有什么方法可以获取包含某个关键字的报纸文章列表?另外,报纸是否可以遍历页面?

以下是我的代码:

0 投票
0 回答
134 浏览

python - Python - 报纸图书馆 - 为什么它缺少相当大的文章部分?

我正在使用报纸图书馆,V. 2.7 found here

当我下载、解析和打印文本时,它给我的文章部分比现实中的要小得多。为什么是这样?有没有什么办法解决这一问题?

这是我的代码:

如果你查看它打印出来的内容,并与网上的实际文章进行比较,就会发现 article.text 跳过了实际文章的前 7-8 段。有什么方法可以确保捕获“完整”文章?

这是 article_object.text 的输出:

u'全国共和党已经闻到了血腥味,并在这里花费数百万美元在电视广告上,作为其夺回参议院的一部分。一则新广告显示,戴着棒球帽的男人预测曼钦先生将变成\u201c华盛顿乔,\u201d 宣布,\u201c我们\u2019必须阻止奥巴马。\u201d\n\n照片\n\n先生。曼钦认为他在这个民主党占多数但价值观保守的州打了所有正确的按钮。2008 年,他以 70% 的选票赢得了他的第二个州长任期,并因财政责任而赢得赞誉;连赖斯先生都称他为好州长。他得到了商会、全国步枪协会以及煤炭行业和矿山工人的认可。\n\n先生。曼钦强调他的保守派资历和独立记录,并指责他的对手发动了一场“恐惧和诽谤”的运动。但反奥巴马的信息似乎引起了一些居民的共鸣41 岁的查尔斯顿轮胎经销商杰夫·惠廷顿 (Jeff Whittington) 说: . \u201c我认为 Manchin 将进入参议院并成为奥巴马的橡皮图章,\u201d 他说,几乎一字不差地重复 Raese 先生的信息。\n\n在一个煤炭被视为繁荣之源的州, Raese 先生抓住了他所谓的模棱两可的陈述。Manchin 就减少温室气体排放总量控制与交易系统的提案提出建议。Manchin 先生现在就这个问题发表了明确的讲话:他在采访中强调,他坚决反对限额交易和碳税。\n\n周三,Manchin 先生有机会强调他对煤炭的支持,并与总统保持距离。在州议会大厦的煤炭生产商协会负责人的支持下,他宣布该州正在起诉两个联邦机构,试图扭转奥巴马政府 2009 年对山顶煤矿开采采取的更严格的控制。 n\n广告 继续阅读主要故事\n\n讨论针对环境保护署和陆军工程兵团的诉讼,Mr. Manchin 说,更严格的程序是非法的,并且通过将新的采矿项目放慢到涓涓细流而损害了国家,他指责奥巴马政府试图\u201c破坏我们的煤炭工业和生活方式。\u201d\n\nEPA回应了它的行为在法律和科学上是合理的。\n\n先生。Manchin、独立专家甚至西弗吉尼亚煤炭协会都对 Raese 的广告表示反对,该广告指责 Manchin 先生通过了一项州法律,该法律\u201c消除了我们发电厂 25% 的煤炭使用量。\u201d\n\n事实上,该法律呼吁在包括清洁煤在内的新能源技术方面取得进展,并得到了行业的支持。\n\n先生。Raese 还抨击了州长过去对奥巴马健康计划表示欢迎的声明。先生。Manchin 说,该计划的一些核心要素,例如保护儿童的保险,是好的,但其他的应该被废除。Raese 先生将健康计划称为“纯正的社会主义”,应该被完全抛弃,这是一个吸引许多小企业主的信息。\n\n照片\n\n先生。Raese 是一个强壮而自信的人,他之前竞选过参议院和州长都没有成功,现在他感觉潮流在流淌。\u201c当你面临奥巴马医改时,当你面临限额与交易时,你如何制定商业计划?\u201d他在他的大本营摩根敦的共和党办公室接受采访时问道。\n\先生。Raese 经营石灰石矿和钢铁制造公司,并且是广播网络和报纸的部分所有者。他在全国至少有三个家,他的妻子住在佛罗里达州棕榈滩的家中,而他的住所则留在西弗吉尼亚州。\n\n虽然 Raese 先生的反华盛顿信息具有广泛的吸引力,他对北美自由贸易协定和自由贸易的明确支持以及他对工会的反对可能无助于他在一个拥有蓝领传统的州。Manchin\u2019 先生的竞选活动投放了广告,其中 Raese 先生吹嘘他继承的财富,并强调他反对最低工资和其他工人保护措施。\n\n在全州的采访中,一些居民表示,虽然 Raese 先生看起来很傲慢,他们钦佩他创造就业机会的记录,并准备向华盛顿派出一张新面孔,而不是选举一个他们认为是职业政治家的人。\n\n广告 继续阅读主要故事\n\n迄今为止发布的唯一民意调查是在没有个人采访的情况下自动完成的,\u2014 并没有被广泛接受为可靠的。但两个阵营的私下民意调查显示,一场出乎意料的势均力敌的竞选。\n\n查尔斯顿的一名律师,现年 53 岁的福特弗朗西斯表示,他喜欢曼钦先生担任州长 \u2014 如果曼钦先生输掉参议院竞选 \u2014,他将保留他的工作但他倾向于投票给 Raese 先生,因为他担心联邦赤字飙升,并认为政府在经济中的作用太大。\n\n其他人,包括 Fairmont 的 64 岁的 Cheryl Bonner,表示他们认为这是用华盛顿的过激行为来描绘曼钦先生是不公平的。\u201cHe\u2019s 支持西弗吉尼亚州,我倾向于投票给他,\u201d 邦纳女士说,她不得不重新开始工作,担任店员,因为她和她丈夫的社会保障和养老金支票无法支付账单。她说,无论谁获胜,她都希望退休人员受到保护。\n\n一些居民表示,曼钦先生今年竞选国家公职很不走运。查尔斯顿一位 51 岁的信贷分析师说,他可能在其他任何时候都得到了我的投票,他是一位经济保守派,在 2008 年投票给了曼钦先生,但对政府的经济政策感到不安。 \n\n\u201c 让他担任参议院席位将提高民主党的地位,\u201d 说,他拒绝透露姓名,因为他的公司与州长办公室有交易。\u201c我们\u2019d宁愿让他作为州长留在这里。\u201d'

0 投票
4 回答
2504 浏览

python - Python: Newspaper Module - Any way to pool getting articles straight from URLs?

I'm using the Newspaper module for python found here.

In the tutorials, it describes how you can pool the building of different newspapers s.t. it generates them at the same time. (see the "Multi-threading article downloads" in the link above)

Is there any way to do this for pulling articles straight from a LIST of urls? That is, is there any way I can pump in multiple urls into the following set-up and have it download and parse them concurrently?

0 投票
2 回答
1079 浏览

python - 如何使用报纸库仅解析网站的特定类别?

我使用Python3newspaper图书馆。据说这个库可以创建一个Source对象,它是一个新闻网站的抽象。但是如果我只需要某个类别的抽象呢?

例如,当我使用这个 url时,我想获取该'technology'类别的所有文章。相反,我从'politics'.

我认为在创建Source对象时,报纸只使用域名,在我的例子中是www.kyivpost.com)。

有没有办法让它与像这样的网址一起使用http://www.kyivpost.com/technology/

0 投票
1 回答
832 浏览

python - 导入报纸模块时出错

我正在尝试在 python 2 上使用报纸包,并且cannot import name images在下载它时不断收到错误错误。

我遵循了之前的 SO 建议,并在/usr/local/lib/python2.7/site-packages/newspaperimages.py文件中创建了一个图像目录,__init__.py但它仍然不起作用: 安装报纸时的 ImportError

该建议与我实施的建议之间的唯一区别是我有site-packages而不是dist-packages. 有任何想法吗?

0 投票
1 回答
847 浏览

python - 带有网络存档的 Python 报纸(回程机器)

我正在尝试将 Python 图书馆报纸与来自Wayback Machine的档案一起使用,该档案存储了已归档网站的旧版本。理论上,可以从这些档案库中查询和下载旧的新闻文章。

例如,以下代码查询CNBC的档案以获取特定的存档日期。

尽管存档的网站本身包含 2016-12-01 的实际新闻文章的链接,但报纸模块似乎没有接收到它们。相反,您会获得以下网址:

这些不是来自此 CNBC 存档版本的实际文章。但是,报纸与今天CNBC版本配合得很好。

我想它会因为 url 的格式(包含两个https)而感到困惑。有人对如何从Wayback Machine档案中提取文章有任何建议吗?

0 投票
2 回答
7433 浏览

python - ImportError:没有名为报纸的模块

我正在尝试构建一个 python 程序,该程序将显示来自某些新闻网站的各种标题。我用pip安装了模块报,但是运行程序却报错:

ImportError:没有名为报纸的模块

有想法该怎么解决这个吗?

0 投票
1 回答
2824 浏览

python - ImportError:没有名为“_sqlite3”的模块错误-下划线相关性?

我正在使用 Python3.4,我最近从 python 3.3.2 升级。

我正在按照这些关于如何安装作为 python 库/工具的报纸的说明进行操作。

执行此命令后出现错误:

注意:我还在上面的命令中指定了 python3.4,我得到了相同的/以下输出/错误:

所以我看过/usr/local/lib/python3.4/sqlite3/dbapi2.py

并且此脚本确实尝试从以下位置导入_sqilte3

我删除了下划线并再次尝试了原始 curl 命令,但这会导致不同的错误,所以我推断这不是答案。

有谁知道这里可能会发生什么?

0 投票
2 回答
399 浏览

python - 无法解析目录中的多个文件

  • 我的本地硬盘上有 html 文件,我试图通过发送 http 请求在网页中打开这些文件。
  • 创建http请求后,我试图通过传递url来解析存储的html文件:(一次传递一个文件时解析是成功的,但我想对目录中的所有文件动态执行此操作,因此用于循环. 这不锻炼)
  • 解析完成后,我将数据保存到 json 文件中。(工作正常)我在这里粘贴了代码:

    /li>

错误信息:

...\newspaper\Scripts\python.exe ".../parsing_newspaper/test1.py" [Source parse ERR] http://localhost:8000/.../cnnpolitics-russian.html Traceback(最近一次调用最后):

文件“...\newspaper\lib\site-packages\newspaper\parsers.py”,第 68 行,在 fromstring cls.doc = lxml.html.fromstring(html)

文件“...\newspaper\lib\site-packages\lxml\html__init__.py”,第 876 行,在 fromstring doc = document_fromstring(html, parser=parser, base_url=base_url, **kw)

文件“...\newspaper\lib\site-packages\lxml\html__init__.py”,第 762 行,在 document_fromstring value = etree.fromstring(html, parser, **kw)

文件“src\lxml\lxml.etree.pyx”,第 3213 行,在 lxml.etree.fromstring (src\lxml\lxml.etree.c:78994)

文件“src\lxml\parser.pxi”,第 1848 行,在 lxml.etree._parseMemoryDocument (src\lxml\lxml.etree.c:118325)

文件“src\lxml\parser.pxi”,第 1729 行,在 lxml.etree._parseDoc (src\lxml\lxml.etree.c:116883)

文件“src\lxml\parser.pxi”,第 1063 行,在 lxml.etree._BaseParser._parseUnicodeDoc (src\lxml\lxml.etree.c:110870)

文件“src\lxml\parser.pxi”,第 595 行,在 lxml.etree._ParserContext._handleParseResultDoc (src\lxml\lxml.etree.c:105093)

文件“src\lxml\parser.pxi”,第 706 行,在 lxml.etree._handleParseResult (src\lxml\lxml.etree.c:106801)

文件“src\lxml\parser.pxi”,第 646 行,在 lxml.etree._raiseParseError (src\lxml\lxml.etree.c:105947)

文件“”,第 0 行 lxml.etree.XMLSyntaxError:

你必须download()在呼吁parse()它之前的文章!

Traceback(最近一次调用最后一次):文件“.../test1.py”,第 26 行,在 article.parse()

文件“...\newspaper\lib\site-packages\newspaper\article.py”,第 168 行,解析中引发 ArticleException() news.article.ArticleException