我必须预处理 NLP 数据,所以我必须从 Tensorflow 数据集中删除停用词(来自 nltk 库)。我尝试了很多这样的事情:
docs = tf.data.Dataset.from_tensor_slices([['Never tell me the odds.'], ["It's a trap!"]])
tokenizer = text.WhitespaceTokenizer()
tokenized_docs = docs.map(lambda x: tokenizer.tokenize(x))
data = tokenized_docs.filter(lambda x: x. not in stop_words)
或这个:
tokens = docs.map(lambda x: tokenizer.tokenize(x))
data = tokens.filter(lambda x: tf.strings.strip(x).ref() not in stopwords)
但它没有用。第一个代码显示如下错误:RaggedTensor is unhashable.