load_file
我让linearsvc使用我试图让它在多处理器环境中工作的方法来对抗训练集和测试集。
我怎样才能进行多处理工作LinearSVC().fit()
LinearSVC().predict()
?我还不太熟悉 scikit-learn 的数据类型。
我也在考虑将样本拆分为多个数组,但我不熟悉 numpy 数组和 scikit-learn 数据结构。
这样做会更容易放入 multiprocessing.pool() 中,这样,将样本分成块,训练它们并稍后组合训练集,它会工作吗?
编辑:这是我的场景:
可以说,我们在训练样本集中有 100 万个文件,当我们想在多个处理器上分配 Tfidfvectorizer 的处理时,我们必须拆分这些样本(对于我的情况,它只有两个类别,所以假设每个样本要训练 500000 个) . 我的服务器有 24 个 48 GB 的内核,所以我想将每个主题分成 1000000 / 24 个块并在它们上处理 Tfidfvectorizer。就像我会对测试样本集以及 SVC.fit() 和决定() 做的那样。是否有意义?
谢谢。
PS:请不要关闭这个。