我有一个包含 2 列的大型文本数据集 - 第一个是文本描述,第二个是它所属的类别。我使用以下方法选择分层样本:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,
stratify=y,
test_size=0.25)
但我需要证明它代表了原始人口。我如何证明或确保这一点?
我发现 Chi2 用于分类数据,但无法找到如何将其应用于文本数据。我发现的另一种方法是 PCA,但我们如何为文本数据绘制 PCA?
谁能告诉我如何通过使用统计测试方法或任何其他方法分析样本与总体,以确保它代表原始总体?