python - 将数据拆分为训练集和测试集

Question

import pandas as pd
import statsmodels.formula.api as sm
train = pd.read_csv('/Users/..../Desktop/train.csv')
from sklearn.cross_validation import train_test_split

所以我被困在如何在训练/测试上进行 70/30 的分割......这是基于使用 ipython 对 kaggle 的工作工资预测

score 0 · Accepted Answer

如果Data将所有数据集（独立和依赖）保存在一个 numpy 数组中：以这种方式

Data=([[1, 2, 3, 430],[...]...])

3 名独立人士和 1 名受抚养人

您可以像这样设置切片的索引：

test_ind=int(Data.shape[0]*0.3)
train_ind=Data.shape[0]-test_ind

Data[:train_ind,:4]将是您的训练数据 Data[train_ind:,:4]将是您的测试数据

python - 将数据拆分为训练集和测试集

1 回答 1

Related

Reference