1
import pandas as pd
import statsmodels.formula.api as sm
train = pd.read_csv('/Users/..../Desktop/train.csv')
from sklearn.cross_validation import train_test_split

所以我被困在如何在训练/测试上进行 70/30 的分割......这是基于使用 ipython 对 kaggle 的工作工资预测

4

1 回答 1

0

如果Data将所有数据集(独立和依赖)保存在一个 numpy 数组中:以这种方式

Data=([[1, 2, 3, 430],[...]...]) 

3 名独立人士和 1 名受抚养人

您可以像这样设置切片的索引:

test_ind=int(Data.shape[0]*0.3)
train_ind=Data.shape[0]-test_ind

Data[:train_ind,:4]将是您的训练数据 Data[train_ind:,:4]将是您的测试数据

于 2014-06-23T07:31:47.650 回答