问题标签 [goose]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
226 浏览

python - “NoneType”对象没有属性“src”

如果我没记错的话,我认为这个错误意味着我正在尝试显示不存在的内容。但是我已经提供了内容,我不知道为什么会出现这个错误。我会详细解释:我正在使用 django-ckeditor,当我尝试发布图像和文本时,它们被分组为内容。而且我试图仅使用图像将其缩略图到首页,与内容分开。所以我使用 python goose 从内容中提取该图像。在模型.py

在 HTML 中

如果我执行 def thumbnail(self, content) (并且没有显示任何内容),错误就会消失,但我不应该这样做,因为我是从 Post 模型中提取的,并且该内容是 self.content。

0 投票
1 回答
75 浏览

goose - 如何使用 Goose 从印地语网页中提取文章?

我正在使用 Python Goose 从网页中提取文章。它适用于许多语言,但不适用于印地语。我试图将印地语停止添加为 stopwords-hi.txt 并将 target_language 设置为 hi,但没有成功。谢谢,伊兰

0 投票
2 回答
450 浏览

python - 如何告诉 python 不要打印列表中的项目?

我的 python 脚本解析来自多个 RSS 提要的标题和链接。我将这些标题存储在一个列表中,并且我想确保我永远不会打印重复项。我怎么做?

暂时我只有它跳过条目。这将是一个问题,因为如果 RSS 提要中还有另一个重复项,那么我将有更多的重复项。

0 投票
1 回答
94 浏览

python - 如何使用 python 存储从 URL 中提取的标题?

我的任务是从 URL 列表中提取标题和元描述。我用过鹅。我做得对吗?

from goose import Goose import urlparse import numpy as np import os import pandas

0 投票
4 回答
14957 浏览

python - 如何使用python从url中提取元描述?

我想从以下网站中提取标题和描述:

查看来源: http: //www.virginaustralia.com/au/en/bookings/flights/make-a-booking/

使用以下源代码片段:

我想要标题和元内容。

我用过鹅,但提取效果不好。这是我的代码:

结果为空

0 投票
0 回答
92 浏览

python - 为什么python从url中提取元描述时返回一个空数组?

我正在尝试使用 goose 提取元描述。我已经编写了以下代码。我还考虑了 cookie 处理。当我只使用一个 url 进行测试时,它可以工作。但是,当我遍历一个 url 数组时,当我使用以下代码提取元描述时会产生一个空数组。

0 投票
1 回答
5813 浏览

go - 如何创建新的 goose 数据库迁移(golang)

我使用 goget 在https://github.com/pressly/goose之后安装 goose 进行数据库迁移。但是当我使用goose create SomeThing它时它不起作用,我现在不知道为什么。请帮我!

我已经创建成功了。我去关注 url https://bitbucket.org/liamstask/goose/。它奏效了。

0 投票
0 回答
761 浏览

heroku - 为 golang 和 heroku 安装 goose

我尝试了 2 种方法将 goose 包含到我的 golang 项目中,但在 heroku 构建期间它失败了。我首先尝试了这种方法:https ://bitbucket.org/liamstask/goose/

我在 vendor.json 文件中添加了 2 个包:

并得到错误:

然后我找到了这些方向:https ://bitbucket.org/liamstask/goose/issues/55/heroku-instructions-no-longer-works-on-go

并尝试更新我的供应商文件以包括:

我仍然收到上面相同的错误消息。有什么想法吗?

编辑:这是完整的错误消息:

0 投票
1 回答
482 浏览

python - 使用 Goose 从 HTML 中提取文本(适用于除一个之外的所有人)

我正在使用 Goose 从各种 URL 中提取标题和正文。它适用于大多数 URL,除了一个特定的荷兰新闻网站。知道这里出了什么问题吗?

具体有问题的网址在这里。

我的代码:

我期待整个文本,但奇怪的是,我只是随机从文章中得到以下段落。

0 投票
1 回答
34 浏览

python - 将 CSV 文件读入另一个 CSV 不保存

所以我的 CSV_Output 文件是空的,尽管我没有收到任何错误。我试图从我的 CSV_to_Read 文件中再添加一列。article.cleaned_text 的打印有效。所以我觉得我只是在这里做一些愚蠢的事情。谢谢!