问题标签 [sframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
388 浏览

python - 使用 sframe 作为数据源绘制箱线图

我正在亿万富翁特征数据库数据集上练习我的 ML 分类技能。

sframe用于加载和操作数据以及seaborn用于可视化。

在数据分析的过程中,我想绘制一个按类别变量分组的箱线图,就像seaborn教程中的这个: 按分类值分组的箱线图

在数据集中,有一个networthusbillion数值变量和selfmade分类变量来说明亿万富翁是否有钱self-made或他是否inherited有钱。

当我尝试使用 绘制类似的箱线图sns.boxplot(x='selfmade', y='networthusbillion', data=data)时,会引发以下错误:

我尝试了以下表格来绘制箱线图 - 它们都没有达到结果:

但是,我可以使用 绘制箱线图sframe,但不按以下方式分组selfmade

所以,我的问题是:有没有办法使用 ? 绘制按分类变量分组的箱形图sframe?也许我做错了什么?

顺便说一句,我设法pandas.DataFrame使用相同的语法 ( sns.boxplot(x='selfmade', y='networthusbillion', data=data)) 来绘制它,所以使用sframewith进行分组可能seaborn还没有实现。

0 投票
1 回答
459 浏览

python - 在 Graphlab 或 Python 中查找特定行

在 Graphlab 中,

我正在处理较大列表中的一小部分电影。

movieIds_5K_np是一个包含我的movieIds 的数组。`ratings_33K_np' 是一个包含四列的数组,其第二列包含所有电影的电影 ID。

我只需要选择ratings_33K_npid 存在于“movieIds_5K_np”中的行。

我尝试了这种方法,但它似乎不起作用:

我如何在 Graphlab 中或使用一些 Python 库来做到这一点?我应该说最初是作为ratings_33KSFramemovieIds_5K导入的。

谢谢

0 投票
2 回答
4194 浏览

python - 将 sframe 列转换为列表

我需要将 SFrame 列转换为列表。

输入 :

输出:

0 投票
4 回答
2523 浏览

python - 如何在存在联合条件和两个单独条件的 sframe 中提取行?

我有一个sframe这样的:

我需要提取所有行,lang == 'de' or lang == 'en'但我提取的行lang == 'en'需要有一个对应的lang == 'de',以便它们共享相同的term_id.

graphlab我一直在用and这样做sframe

de.print_rows(10)

接着:

[出去]:

我努力了:

但是我弄错了语法,给了我这个错误:

我应该如何过滤 sframe 以便获得带有enandde和对应的行term_id

生成的数据框应如下所示:

我该如何做同样的事情pandas

0 投票
1 回答
1311 浏览

python - Python:为graphlab.SFrame的所有行迭代一行的不同列的操作

有一个带有dict元素的列的 SFrame。

我想为cosineSFrame 的每一行计算这两列之间的距离。下面是使用for loop.

这是非常低效的,如果行数很大,则需要数小时。有人可以建议一个更好的方法。

0 投票
1 回答
575 浏览

python - graphlab:如何将压缩文件加载到 SFrame

我想将 GraphLab 提供的压缩后的 csv 文件 () 读取到 SFrame。 https://dato.com/products/create/docs/generated/graphlab.SFrame.read_csv.html

我尝试了以下代码,但它不起作用。

0 投票
1 回答
291 浏览

python - Graphlab - OverflowError:长太大而无法转换

我通过传递相同教学特征的不同幂来创建不同的多项式回归模型。

因此,如果我想要特征“x”的 3 次多项式模型。然后到回归模型,我将 x^1、x^2 和 x^3 作为特征传递。

以下函数用于创建“x”幂的 Sframe 表。从传递给它的“x”的值,以及需要创建的度数权力。

然后使用从上述函数生成的 Sframe。我能够为不同程度的 X 生成不同的多项式表达式。如下面的代码所示。

Graphlab 能够生成高达 4 级的模型。之后,如果失败并用于以下代码。它将显示发生了溢出错误。

这个错误是因为我的计算机缺少内存来计算回归模型吗?如何修复此错误?

0 投票
1 回答
7558 浏览

amazon-web-services - 无法从本地机器访问 AWS 的 localhost URL

我有一个 AWS EC2 实例正在运行,我应该访问该实例的本地主机 URL。每当我尝试 localhost:port/index.html URL 时,我都会收到服务器无响应错误。我尝试使用实例的公共 IP,但失败了。我通过公开也不起作用的入站流量(IP:0.0.0.0/0)的特定端口号来配置 AWS。我应该如何配置才能访问 URL?

0 投票
1 回答
839 浏览

numpy - 使用存储在 SFrame 中的数据拟合 scikit-learn 算法

是否可以使用存储在 Sframe 中的数据来训练例如 scikit-learn 实现的随机森林,而无需将整个数据集转换为 numpy?

0 投票
0 回答
265 浏览

classification - 将丢失的数据视为另一个类别

我有一些数据,主要是用户人口统计数据。有很多调查问题,人们的回答是“是”或“不是”。但是数据自然包含很多缺失值。我不想估算缺失值。我想把它当作第三类。所以每个问题都有三个可能的答案——“是”、“否”和“不确定”。

到目前为止我正在做的是:

我在哪里target预测(它是二进制 1 或 -1)。现在我的traintest数据集都有很多缺失值,所以我到目前为止所做的是:

但是这些预测并没有给我很好的准确性。我想将每两个类别的答案(Yes/No)转换为三个类别(Yes/No/NotSure)。该怎么做呢?

我试过了 :

这执行没有任何错误,但它不起作用。