问题标签 [python-newspaper]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python:报纸模块 - 从多个 URL 下载
我讨厌开始一篇新文章,但我正在尝试完成这个问题中描述的确切内容:Python: Newspaper Module - Any way to pool getting article directly from URLs?
但是,在尝试实施该解决方案时,我收到以下错误:
非常感谢朝着正确的方向前进。
python - 如何使用 Python Newspaper 从存储的 HTML 中提取
我已经在本地驱动器上抓取并存储了页面 HTML。我现在需要使用 Python Newspaper(Ver 0.1.2)和 Python(Ver 2.7.10)提取内容、标题、图像等信息。我无法在 Internet 上找到与此相关的任何内容。我如何实现上述目标?
python - 安装python报纸包的问题
我在虚拟环境中使用以下命令安装 Python 报纸库:
我收到以下错误。在我尝试了 StackOverflow 的一些解决方案后它仍然存在,但它没有用。我遇到了同样的问题,之前我通过安装特定版本(和更新)的安装工具(不同的机器)解决了这个问题。但是,它在这里不起作用。
任何想法我做错了什么?这个错误实际上是什么意思?
IDE:带有虚拟环境的 Pycharm,Ubuntu 上的 Python 2.7
错误:
python - 处理报纸文章异常
我有一些代码使用报纸去查看各种媒体并从它们下载文章。这在很长一段时间内一直运行良好,但最近开始出现问题。我可以看到问题出在哪里,但是由于我是 Python 新手,所以我不确定解决它的最佳方法。基本上(我认为)我需要进行修改,以防止偶尔出现的格式错误的网址完全使脚本崩溃,而是允许它放弃该网址并转移到其他网址。
错误的根源是当我尝试使用以下方式下载文章时:
有些文章(显然每天都在变化)会抛出以下错误,但脚本会继续运行:
接下来应该对每篇文章进行解析和运行自然语言处理,并将某些元素写入数据帧,这样我就有了:
(这可能也有点草率,但这是另一天的问题)
这运行良好,直到它到达出现错误的 URL 之一,然后抛出文章异常并且脚本崩溃:
那么防止终止我的脚本的最佳方法是什么?我应该在我收到 unicode 错误的下载阶段解决它还是在解析阶段通过告诉它忽略那些错误地址来解决它?我将如何实施该更正?
非常感谢任何建议。
python - AttributeError:“模块”对象没有属性“刮板”
使用 python 2.7 我试图从 NYT 抓取和导入文章,并且在同时获取一篇或多篇文章时没有问题,现在得到错误 AttributeError: 'module' object has no attribute 'Scraper'。
我正在使用报纸包,到目前为止它运行良好,直到出现此错误。尽管 html 链接是准确的,但它似乎适用于某些 html 链接而不适用于其他链接。关于解决方案的任何想法?
这是我的代码:
这是我的完整错误消息(快速说明,如果没有 .parse(),您将无法运行它)-
python - Beanstalk 上的报纸模块导入问题
有没有人尝试在 AWS Elastic Beanstalk Python 3.4 上使用报纸 3k python 库?尽管报纸目录中存在 images.py,但我遇到了一个奇怪的错误。
我已经正确安装了所有依赖项(Pillow、lxml、libjpeg 等),当我 ssh 到实例时它可以正常工作。
任何帮助将不胜感激,谢谢!
python - 将 Django 应用程序部署到需要 NLTK 的 OpenShift 3.0
我正在开发一个需要 Newspaper3K 来通过 Internet 检索一些信息的 Django 项目。尝试将我的 Django Web 应用程序部署到免费的 OpenShift Online 3.0 Starter 上,在安装 Newspaper3K 及其依赖项 NLTK 时构建失败。
请告知正确的步骤来实现这个“带有 NLTK 的 Django 部署到 OpenShift 3”安装。谢谢!
python - “没有名为 tldextract 的模块”
我在 python 中尝试了以下代码:
我收到以下错误:
Traceback(最近一次通话最后一次):文件“news_paper_article.py”,第 3 行,来自报纸导入文章
文件“/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/newspaper/init .py”,第 10 行,in from .article import Article, ArticleException
文件“/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/newspaper/article.py”,第 12 行,来自 . 导入图像文件“/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/newspaper/images.py”,第 21 行,来自 . 导入网址
文件“/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/newspaper/urls.py”,第 16 行,从 tldextract 导入 tldextract ImportError:没有名为 tldextract 的模块
这可能是简单的问题,但我才刚刚开始,感谢任何帮助。
python - 使用 Anaconda Prompt 安装 geograpy 的问题
我正在尝试通过 Anaconda Prompt 使用 geograpy 模块。当我跑
在我按照说明将其安装在非 unix/linux 机器上之后,报纸 3k 位于我的AppData/Local/Continuum/Anaconda3/Lib/site-packages
文件夹中,但每当我尝试安装 geograpy 时,我仍然会收到该错误。
我已经满足了报纸 3k 的要求,如何绕过这个警告?