问题标签 [goose]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ImportError:没有名为 goose 的模块
我正在尝试使用Python-Goose extractor。我安装了 virtualenv,并按照设置说明进行操作。从 PyCharm 运行时,一切正常。
但是从 Windows 命令提示符运行时,我收到此错误:
我在这里做错了什么?
这是它在 PyCharm (大)中工作的图像:
python - 什么是正确的鹅导入语法
goose 安装将 goose 放在 python-goose 目录中。当我尝试在 IDLE 提示符下导入 goose 时,我得到:
因为 goose 安装在 python-goose 目录中,我相信导入语法应该是: from python-goose.goose import Goose 但是当我运行它时,我收到以下语法错误消息:
任何有关如何正确导入鹅的建议将不胜感激。
javascript - 鹅 NoClassDefFound 错误
我正在尝试将 Goose-2.1.22 实施到我的一个应用程序中。但是,当我尝试使用他们提供给我的基本代码运行我的应用程序时,我收到此错误:
这是使用 goose 的代码(方法调用 from onCreate()
)
任何想法如何解决我的问题?感谢大家!
python - 安装goose时的问题
我在安装 goose 时遵循了https://github.com/grangier/python-goose的确切说明,在输入“mkvirtualenv --no-site-packages goose”后,我得到了:
我已经使用'sudo pip install virtualenv/virtualenvwrapper'安装了virtualenv和virtualenvwrapper,最奇怪的是我似乎仍然设法进入goose虚拟环境(似乎是这样)。克隆到 git repo 并切换到之前克隆的目录 python-goose 后,我尝试运行“pip install -r requirements.txt”和“python setup.py install”,这些是错误:
我不确定具体出了什么问题,因为我从头开始尝试了几次,我删除了目录“python-goose”和“./virtualenv”以及来自 .bash_profile 的路径。
任何帮助将不胜感激!
谢谢
PS 我正在使用带有 Python 2.7 的 Anaconda。
python - 如何解决递归深度超出(Goose-extractor)
我是 goose-extractor 的一个问题这是我的代码:
看看我的问题。
有什么建议么 ?
我是一个糟糕的程序员或隐藏的错误在 python 中不可见
python - 如何提取中文文章
这似乎是最受尝试的维护。此外,尝试过鹅和锅炉管都不起作用。
后来也想翻译:
python - 在 Python 中从 Goose 扩展多语言版本
Goose 是一个从 url 中提取句子、照片、图片等的工具。这个工具是用python写的。所有代码都在以下 URL 中。
https://github.com/grangier/python-goose/tree/develop/goose
我的主要目的是为当前版本中未包含的其他语言添加处理。
首先,我阅读了教程,通过设置“stop_words”参数,可以使用中文和韩文和阿拉伯文。
因此,我还在整个包中搜索了“stop_words”这个概念。
我找到了以下 python 类。
类 StopWords(object): 类 StopWordsChinese(StopWords): 类 StopWordsArabic(StopWords): 类 StopWordsKorean(StopWords):
我还发现了用各种语言编写的停用词的文本文件。这些文件所在的地方就是上面URL中的/resource/text/。
QUESTION 1: 包中是否还有其他组件可以重写这些 Goose 代码并添加日语和所有其他语言的版本,这些版本不包含在最新版本中?
.
问题 2:作为第一步,我想添加日语程序。是否有从日语 URL 中抓取网页的提示?
python - 从鹅提取的文本中去掉反斜杠
我对 goose 提取的文本有一个小的正则表达式问题。
我已经使用 Goose 从 html 页面中提取了干净的文本,goose 给出的输出很好,但是有一个小问题。我得到下面的字符串。
请在下面找到代码:
我如何摆脱反斜杠。
python - 如何从纽约时报 python goose 中提取文章
我正在尝试使用 python goose extractor 从纽约时报中提取文章。
我尝试使用标准的 url 检索方式:
但是,这会产生一个空字符串。所以我尝试了通过文档推荐的以下方式:
再次为“cleaned_text”返回一个空字符串。html是从网站上检索的。我也尝试过使用请求,但结果相同。
我假设这是一个 python goose 问题,无法从返回的原始数据中提取文章正文。我之前搜索过,但找不到任何可以解决我的问题的结果。