问题标签 [sframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
7738 浏览

graphlab - 如何将`apply`与需要多个输入的函数一起使用

我有一个有多个输入的函数,并想SFrame.apply用来创建一个新列。我找不到将两个参数传递给SFrame.apply.

理想情况下,它将列中的条目作为第一个参数,我将传入第二个参数。直觉上像...

0 投票
3 回答
11210 浏览

python - 根据给定分布对数据帧进行采样

如何根据给定的类\标签分布值对 pandas 数据框或 graphlab sframe 进行采样,例如:我想对具有标签\类列的数据框进行采样以选择行,以便平等地获取每个类标签,从而具有相似的频率为每个类标签对应一个均匀分布的类标签。或者最好是根据我们想要的类分布来获取样本。

以上应根据第二帧中的给定频率分布从第一个数据帧中提取行,其中频率计数值在 nostoextract 列中给出,以给出每个类最多出现 2 次的采样帧。如果找不到足够的类来满足所需的计数,则应忽略并继续。生成的数据帧将用于基于决策树的分类器。

正如评论员所说,采样数据帧必须包含 nostoextract 相应类的不同实例?除非给定类没有足够的示例,在这种情况下,您只需获取所有可用的示例。

0 投票
0 回答
543 浏览

python - GraphLab 使用 SFrame 创建:内存错误

我正在尝试制作一个 SFrame 来分析带有产品评论信息的文件夹“amazon_baby.gl”以进行情绪分析。该文件夹只有大约 40MB 大,我有大约 1GB 的内存。然而我得到一个错误:

/home/anshudwibhashi/Coursera/lib/python2.7/site-packages/graphlab/cython/cy_sframe.so 在graphlab.cython.cy_sframe.UnitySFrameProxy.head()

/home/anshudwibhashi/Coursera/lib/python2.7/site-packages/graphlab/cython/cy_sframe.so 在graphlab.cython.cy_sframe.UnitySFrameProxy.head()

内存错误:std::bad_alloc

我已经阅读了其他一些帖子,他们建议从 graphlab 文件夹中注释掉 CMakeLists.txt 中的某一行,但我首先找不到这样的文件夹......

另一件事是,SFrame 应该是一个可以工作的框架,尽管内存较少(与 pandas 等相比),但我收到了这个错误。请帮忙!

谢谢!

编辑:我刚刚检查过我已经有大约 800 MB 可用空间了!

0 投票
7 回答
8174 浏览

python - 在python中调用函数使用.apply

我有一个简码如下。尝试使用.apply来调用一个函数。但它总是给我一个错误,说该函数不可调用。


有人可以帮帮我吗?

0 投票
1 回答
811 浏览

python - 将数据列从一个 SFrame 附加到另一个 SFrame

我的训练数据train SFrame看起来像这样,有 4 列(“Store”列在此 SFrame中不唯一):

给定第二个store SFrame(“Store”列在此 SFrame 中是唯一的):

我可以通过遍历中的每一行并找到适当的 from然后保留列和 ise来将适当的附加StoreType到我的:train SFrametrainStoreTypestoreSFrame.add_column()

要得到:

但我确信有一种更简单、更快捷的方法可以使用Graphlab. 当前方法具有O(n*m)n = no的最坏情况。中的行数train,m = 否。中的行数m

想象一下,我store SFrame有 8 列要附加到train. 上面的代码效率非常低。

我还能如何将数据列从一个 SFrame 附加到另一个 SFrame?(也欢迎 Pandas 解决方案)

0 投票
1 回答
133 浏览

c++ - 无法使用 booster、C++、graphlab 解析 pm 格式的日期时间

我试图将日期时间字符串转换为 SArray 的日期时间(使用 C++ 助推器库),但它似乎不理解%p格式说明符。http://www.boost.org/doc/libs/1_43_0/doc/html/date_time/date_time_io.html 该文档说用! do not currently work for input. 这是否意味着您无法使用pmor解析任何内容PM在此处输入图像描述

0 投票
2 回答
1360 浏览

python - 字符串对象到 SFrame 中的 dateTime 对象

我有一个大约 20GB 的巨大数据集。我已经使用 graphlab.SFrame.read_csv() 读取了数据。我有一个日期列,它以 yyyy-dd-mm 格式读取为字符串。但我希望将该列作为日期时间对象读取。我该怎么做?

我知道一种方法是遍历每一行并使用 python 代码更改它。还有其他方法吗?可能更快?

0 投票
2 回答
1751 浏览

python - 使用 sframe.apply() 导致运行时错误

我正在尝试对充满数据的 s 帧使用简单的应用。这是为了在其中一个列上应用一个函数进行简单的数据转换,该函数接受文本输入并将其拆分为列表。这是函数及其调用/输出:

当我运行我的代码时,我得到了那个错误。s 帧 (df) 只有 10 x 2,所以应该不会有过载。我不知道如何解决这个问题。

0 投票
2 回答
2716 浏览

python - 矩阵乘法与 SFrame 和 SArray 与 Graphlab 和/或 Numpy

给定一个graphlab.SArray命名coef

还有一个graphlab.SFrame(如下所示的前 10 个)名为x

如何操作 SArray 和 SFrame 使得乘法将返回一个向量 SArray,其第一行计算如下?

我目前正在做一些愚蠢的事情,将 SFrame / SArray 转换为列表,然后将其转换为 numpy 数组来执行np.multiply. 即使在转换为 numpy 数组之后,它也没有给出正确的矩阵向量乘法。我目前的尝试:

(错误)[出]:

我尝试的输出也是错误的,它应该返回一个向量标量值。必须有一种更简单的方法来做到这一点。

如何操作 SArray 和 SFrame 使得乘法将返回一个向量 SArray,其第一行计算如下?

使用numpyDataframes,应该如何执行矩阵向量乘法?

0 投票
1 回答
924 浏览

python - 在 Graphlab.SFrame 中用单双引号解析列行

我从这个数据集中有这样的行(https://raw.githubusercontent.com/alvations/stasis/master/sts.csv):

我已将其读入graphlab.SFrame使用read_csv()函数:

并且有些行未解析。回溯如下:

Sent1看看这些行,如果我的或Sent2列中的任何一个包含奇数双引号,似乎就有问题了。

使用error_bad_lines来跟踪有问题的行:

它抛出回溯:

如果我的行包含奇数个双引号,有没有办法解决这个问题?

有没有办法在不清理数据的情况下做到这一点(例如,识别有问题的行,然后清理/更正它们,但保留另一个 SFrame 来跟踪清理/更正?


作为健全性检查,如果我们\t在原始 csv 文件中进行搜索,行中有一个选项卡会出现问题,但在graphlab解析它时,它会消失:

在此处输入图像描述


作为另一个完整性检查,逐行读取文件并将其拆分\t为整个文件返回 5 列:


更理智地检查它是不是。列中,@papayawarrior 4 列行的示例在我的版本中被正确解析graphlab

在此处输入图像描述


我已经手动检查了有问题的行,它们是:

PROGRESS: ...不是通过从详细消息中反复清除这些行来手动查找这些行,有没有办法在将这些行加载到 Graphlab SFrame 时将其转储出来?