我正在 Coursera 上学习机器学习课程。在课程中,强调我们使用来自Dato的 GraphLab 。在其中一个练习中,讲师使用 graphlab.random_split() 来拆分 SFrame,如下所示:
sales = graphlab.SFrame('home_data.gl/')
train_data, test_data = sales.random_split(.8,seed=0)
我已经完成了第一周的课程,测验要求我们使用 GraphLab 和 SFrame 解决问题。我尝试安装 GraphLab,但是它需要 64 位 PC,而我的 PC 是 32 位。如果我们愿意,教练已经让我们选择使用 Pandas,所以我开始使用 Pandas。
我的问题是这个,教练使用sales.random_split(.8,seed=0)
,这会给他train_data, test_data
。他将使用它们进行进一步分析,并为此得出答案。
现在,如果我不使用会以完全相同的方式拆分数据的 pandas 函数,我的答案将永远不会匹配他的答案,我也永远无法通过这个测验。我有兴趣使用的熊猫功能是:
train_data, test_data = pandas.DataFrame.sample(frac=0.8, random_state=0)
我的问题是:将pandas.DataFrame.sample(frac=0.8, random_state=0)
产生与sales.random_split(.8,seed=0)
.
我已经写信给导师,我正在等待他的回复,同时如果有人可以帮助我,请帮忙。谢谢你。