python - 使用 shogun 工具箱加载数据

Question

我正在尝试使用 shogun 工具箱将这个数据集中的人分类为淹死与否。

我想使用幕府将军介绍中提到的 CFIle、LibSVMFile、SparseRealFeatures 等幕府引擎，但我被卡住了。

首先，在本介绍中，您直接加载该格式的 LibSVMFile，但是作者没有提及他们如何从 CSV 格式（这是他使用的数据集的原始格式）生成数据文件......

由于我没有所需格式的数据集，因此我尝试使用 CFile 类加载我的数据集，甚至更好的是使用 CCSVFile 类，但我得到了

NameError: name 'CFile' is not defined

和

NameError: name 'CCSVFile' is not defined

（我在 Ubuntu 17.10 中使用从源代码编译的 shogun throught Python3，并且我正在使用“from shogun import *”导入所有 shogun）

不过，当我使用

data_file=LibSVMFile(os.path.join(SHOGUN_DATA_DIR, 'train.csv'))

如示例中所示，未定义类没有错误，但正如预期的那样，它会退化为：

[1]    8870 segmentation fault (core dumped)  python3 titanic.py

我想知道使用这个 shogun 引擎加载数据集的正确方法是什么......

在其他 shogun notebook 中，他们没有使用它们，只是使用其他库加载数据集，我开始认为这是最好的方法。

score 0 · Accepted Answer

要读取 CSV 文件，您应该运行以下命令（在 python 中）：

import shogun as sg
train_csv = sg.CSV("train.csv")

但请注意，该文件包含许多需要编码的分类，因此在实际尝试在 shogun 模型中使用它之前，首先应该进行一些数据处理。

1 回答 1