0

我有以下问题:

我正在使用anaconda python. 在 keras 的数据集中,有一个处理电影评论情感分类的数据集,或者imdb

from keras.datasets import imdb
(X_train, y_train), (X_test, y_test) = imdb.load_data()

根据文档,数据集现在可以使用了。基本上,这些词已被整数替换,这些整数表示数据集中每个词的有序频率。因此,每个修订版中的句子都由一系列整数组成。这是问题,我想知道一种将新数据集“转换”为 keras 输入模式的方法。

抱歉出现错误,我是 python 新手,我正在尝试学习 ml。

我尝试这样做,word2vec但我不知道我是否走在正确的道路上:

word2vec.train_on_corpus(
    open('my-corpus.txt').read(),
    num_embedding_dimensions=500
)

该示例带有文本,但是我有一个体系结构,其中每个文件夹的名称都是标签,并且在每个文件夹中我都有 txt 文档。

我“得到”的另一种方法是使用sklearn

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(analyzer = "word",   
                         tokenizer = None,    
                         preprocessor = None, 
                         stop_words = None,   
                         max_features = 5000) 

train_data_features = vectorizer.fit_transform(sentences)
train_data_features = train_data_features.toarray()

你有其他我可以使用的替代品吗?目前的做法真的是这样吗?但我仍然不知道如何将文本向量绑定到标签

欢迎任何帮助,谢谢。

4

0 回答 0