问题标签 [goose]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1572 浏览

python - ImportError:没有名为 goose 的模块

我正在尝试使用Python-Goose extractor。我安装了 virtualenv,并按照设置说明进行操作。从 PyCharm 运行时,一切正常。

但是从 Windows 命令提示符运行时,我收到此错误:

我在这里做错了什么?

这是它在 PyCharm (大)中工作的图像:

在 PyCharm 中工作。

0 投票
1 回答
473 浏览

python - 什么是正确的鹅导入语法

goose 安装将 goose 放在 python-goose 目录中。当我尝试在 IDLE 提示符下导入 goose 时,我得到:

因为 goose 安装在 python-goose 目录中,我相信导入语法应该是: from python-goose.goose import Goose 但是当我运行它时,我收到以下语法错误消息:

任何有关如何正确导入鹅的建议将不胜感激。

0 投票
1 回答
54 浏览

javascript - 鹅 NoClassDefFound 错误

我正在尝试将 Goose-2.1.22 实施到我的一个应用程序中。但是,当我尝试使用他们提供给我的基本代码运行我的应用程序时,我收到此错误:

这是使用 goose 的代码(方法调用 from onCreate()

任何想法如何解决我的问题?感谢大家!

0 投票
3 回答
1620 浏览

python - 安装goose时的问题

我在安装 goose 时遵循了https://github.com/grangier/python-goose的确切说明,在输入“mkvirtualenv --no-site-packages goose”后,我得到了:

我已经使用'sudo pip install virtualenv/virtualenvwrapper'安装了virtualenv和virtualenvwrapper,最奇怪的是我似乎仍然设法进入goose虚拟环境(似乎是这样)。克隆到 git repo 并切换到之前克隆的目录 python-goose 后,我尝试运行“pip install -r requirements.txt”和“python setup.py install”,这些是错误:

我不确定具体出了什么问题,因为我从头开始尝试了几次,我删除了目录“python-goose”和“./virtualenv”以及来自 .bash_profile 的路径。

任何帮助将不胜感激!

谢谢

PS 我正在使用带有 Python 2.7 的 Anaconda。

0 投票
1 回答
186 浏览

python - 如何解决递归深度超出(Goose-extractor)

我是 goose-extractor 的一个问题这是我的代码:

看看我的问题。

有什么建议么 ?

我是一个糟糕的程序员或隐藏的错误在 python 中不可见

0 投票
1 回答
994 浏览

python - 阅读文章内容使用鹅检索什么

我正在尝试从 .html 文件中读取内容(为方便起见,此处指定了 URL)[1]。但有时它不显示任何文本。请帮我解决这个问题。

使用的 Goose 版本:https ://github.com/agolo/python-goose/ 当前版本给出了一些错误。

0 投票
0 回答
134 浏览

python - 如何提取中文文章

这似乎是最受尝试的维护。此外,尝试过鹅和锅炉管都不起作用。

后来也想翻译:

0 投票
0 回答
112 浏览

python - 在 Python 中从 Goose 扩展多语言版本

Goose 是一个从 url 中提取句子、照片、图片等的工具。这个工具是用python写的。所有代码都在以下 URL 中。

https://github.com/grangier/python-goose/tree/develop/goose

我的主要目的是为当前版本中未包含的其他语言添加处理。

首先,我阅读了教程,通过设置“stop_words”参数,可以使用中文和韩文和阿拉伯文。

因此,我还在整个包中搜索了“stop_words”这个概念。
我找到了以下 python 类。

类 StopWords(object): 类 StopWordsChinese(StopWords): 类 StopWordsArabic(StopWords): 类 StopWordsKorean(StopWords):

我还发现了用各种语言编写的停用词的文本文件。这些文件所在的地方就是上面URL中的/resource/text/。

QUESTION 1: 包中是否还有其他组件可以重写这些 Goose 代码并添加日语和所有其他语言的版本,这些版本不包含在最新版本中?

.

问题 2:作为第一步,我想添加日语程序。是否有从日语 URL 中抓取网页的提示?

0 投票
0 回答
89 浏览

python - 从鹅提取的文本中去掉反斜杠

我对 goose 提取的文本有一个小的正则表达式问题。

我已经使用 Goose 从 html 页面中提取了干净的文本,goose 给出的输出很好,但是有一个小问题。我得到下面的字符串。

请在下面找到代码:

我如何摆脱反斜杠。

0 投票
1 回答
678 浏览

python - 如何从纽约时报 python goose 中提取文章

我正在尝试使用 python goose extractor 从纽约时报中提取文章。

我尝试使用标准的 url 检索方式:

但是,这会产生一个空字符串。所以我尝试了通过文档推荐的以下方式:

再次为“cleaned_text”返回一个空字符串。html是从网站上检索的。我也尝试过使用请求,但结果相同。

我假设这是一个 python goose 问题,无法从返回的原始数据中提取文章正文。我之前搜索过,但找不到任何可以解决我的问题的结果。