问题标签 [sframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
graphlab - 如何将`apply`与需要多个输入的函数一起使用
我有一个有多个输入的函数,并想SFrame.apply
用来创建一个新列。我找不到将两个参数传递给SFrame.apply
.
理想情况下,它将列中的条目作为第一个参数,我将传入第二个参数。直觉上像...
python - 根据给定分布对数据帧进行采样
如何根据给定的类\标签分布值对 pandas 数据框或 graphlab sframe 进行采样,例如:我想对具有标签\类列的数据框进行采样以选择行,以便平等地获取每个类标签,从而具有相似的频率为每个类标签对应一个均匀分布的类标签。或者最好是根据我们想要的类分布来获取样本。
以上应根据第二帧中的给定频率分布从第一个数据帧中提取行,其中频率计数值在 nostoextract 列中给出,以给出每个类最多出现 2 次的采样帧。如果找不到足够的类来满足所需的计数,则应忽略并继续。生成的数据帧将用于基于决策树的分类器。
正如评论员所说,采样数据帧必须包含 nostoextract 相应类的不同实例?除非给定类没有足够的示例,在这种情况下,您只需获取所有可用的示例。
python - GraphLab 使用 SFrame 创建:内存错误
我正在尝试制作一个 SFrame 来分析带有产品评论信息的文件夹“amazon_baby.gl”以进行情绪分析。该文件夹只有大约 40MB 大,我有大约 1GB 的内存。然而我得到一个错误:
/home/anshudwibhashi/Coursera/lib/python2.7/site-packages/graphlab/cython/cy_sframe.so 在graphlab.cython.cy_sframe.UnitySFrameProxy.head()
/home/anshudwibhashi/Coursera/lib/python2.7/site-packages/graphlab/cython/cy_sframe.so 在graphlab.cython.cy_sframe.UnitySFrameProxy.head()
内存错误:std::bad_alloc
我已经阅读了其他一些帖子,他们建议从 graphlab 文件夹中注释掉 CMakeLists.txt 中的某一行,但我首先找不到这样的文件夹......
另一件事是,SFrame 应该是一个可以工作的框架,尽管内存较少(与 pandas 等相比),但我收到了这个错误。请帮忙!
谢谢!
编辑:我刚刚检查过我已经有大约 800 MB 可用空间了!
python - 在python中调用函数使用.apply
我有一个简码如下。尝试使用.apply
来调用一个函数。但它总是给我一个错误,说该函数不可调用。
有人可以帮帮我吗?
python - 将数据列从一个 SFrame 附加到另一个 SFrame
我的训练数据train
SFrame
看起来像这样,有 4 列(“Store”列在此 SFrame中不唯一):
给定第二个store
SFrame
(“Store”列在此 SFrame 中是唯一的):
我可以通过遍历中的每一行并找到适当的 from然后保留列和 ise来将适当的附加StoreType
到我的:train
SFrame
train
StoreType
store
SFrame.add_column()
要得到:
但我确信有一种更简单、更快捷的方法可以使用Graphlab
. 当前方法具有O(n*m)
n = no的最坏情况。中的行数train
,m = 否。中的行数m
。
想象一下,我store
SFrame
有 8 列要附加到train
. 上面的代码效率非常低。
我还能如何将数据列从一个 SFrame 附加到另一个 SFrame?(也欢迎 Pandas 解决方案)
c++ - 无法使用 booster、C++、graphlab 解析 pm 格式的日期时间
我试图将日期时间字符串转换为 SArray 的日期时间(使用 C++ 助推器库),但它似乎不理解%p
格式说明符。http://www.boost.org/doc/libs/1_43_0/doc/html/date_time/date_time_io.html
该文档说用!
do not currently work for input
. 这是否意味着您无法使用pm
or解析任何内容PM
?
python - 字符串对象到 SFrame 中的 dateTime 对象
我有一个大约 20GB 的巨大数据集。我已经使用 graphlab.SFrame.read_csv() 读取了数据。我有一个日期列,它以 yyyy-dd-mm 格式读取为字符串。但我希望将该列作为日期时间对象读取。我该怎么做?
我知道一种方法是遍历每一行并使用 python 代码更改它。还有其他方法吗?可能更快?
python - 使用 sframe.apply() 导致运行时错误
我正在尝试对充满数据的 s 帧使用简单的应用。这是为了在其中一个列上应用一个函数进行简单的数据转换,该函数接受文本输入并将其拆分为列表。这是函数及其调用/输出:
当我运行我的代码时,我得到了那个错误。s 帧 (df) 只有 10 x 2,所以应该不会有过载。我不知道如何解决这个问题。
python - 矩阵乘法与 SFrame 和 SArray 与 Graphlab 和/或 Numpy
给定一个graphlab.SArray
命名coef
:
还有一个graphlab.SFrame
(如下所示的前 10 个)名为x
:
如何操作 SArray 和 SFrame 使得乘法将返回一个向量 SArray,其第一行计算如下?:
我目前正在做一些愚蠢的事情,将 SFrame / SArray 转换为列表,然后将其转换为 numpy 数组来执行np.multiply
. 即使在转换为 numpy 数组之后,它也没有给出正确的矩阵向量乘法。我目前的尝试:
(错误)[出]:
我尝试的输出也是错误的,它应该返回一个向量标量值。必须有一种更简单的方法来做到这一点。
如何操作 SArray 和 SFrame 使得乘法将返回一个向量 SArray,其第一行计算如下?
使用numpy
Dataframes,应该如何执行矩阵向量乘法?
python - 在 Graphlab.SFrame 中用单双引号解析列行
我从这个数据集中有这样的行(https://raw.githubusercontent.com/alvations/stasis/master/sts.csv):
我已将其读入graphlab.SFrame
使用read_csv()
函数:
并且有些行未解析。回溯如下:
Sent1
看看这些行,如果我的或Sent2
列中的任何一个包含奇数双引号,似乎就有问题了。
使用error_bad_lines
来跟踪有问题的行:
它抛出回溯:
如果我的行包含奇数个双引号,有没有办法解决这个问题?
有没有办法在不清理数据的情况下做到这一点(例如,识别有问题的行,然后清理/更正它们,但保留另一个 SFrame 来跟踪清理/更正?
作为健全性检查,如果我们\t
在原始 csv 文件中进行搜索,行中有一个选项卡会出现问题,但在graphlab
解析它时,它会消失:
作为另一个完整性检查,逐行读取文件并将其拆分\t
为整个文件返回 5 列:
更理智地检查它是不是。列中,@papayawarrior 4 列行的示例在我的版本中被正确解析graphlab
:
我已经手动检查了有问题的行,它们是:
PROGRESS: ...
不是通过从详细消息中反复清除这些行来手动查找这些行,有没有办法在将这些行加载到 Graphlab SFrame 时将其转储出来?