python - Spark相当于Keras Tokenizer？

Question

到目前为止，我使用 numpy 和内置函数（例如 keras tokenizer 类，tf.keras.preprocessing.text.Tokenizer：https ://keras.io/api/preprocessing/text/ ）对文本数据进行预处理。

还有我被卡住了：因为我试图扩大我的模型和数据集，所以我正在试验 spark 和 spark nlp ( https://nlp.johnsnowlabs.com/docs/en/annotators#tokenizer ).. . 但是，我还没有找到类似的工作标记器。拟合的标记器必须稍后可用于转换验证/新数据。

我的输出应该将每个标记表示为一个唯一的整数值（从 1 开始），例如：

[ 10,... ,  64,  555]
[ 1,... , 264,   39]
[ 12,..., 1158, 1770]

目前，我可以使用 Spark NLP-tokenizer 来获取标记词：

[okay,..., reason, still, not, get, background] 
[picture,..., expand, fill, whole, excited]                     
[not, worry,..., happy, well, depend, on, situation]

有没有人有不需要将数据复制出火花环境的解决方案？

更新：

我创建了两个 CSV 来澄清我当前的问题。第一个文件是通过预处理管道创建的：1.cleaned_delim_text

之后，分隔的单词应该被“翻译”成整数值，序列应该用零填充到相同的长度：2.cleaned_tok_text

score 0 · Accepted Answer

请尝试以下组合 -

1.使用tokenizer将语句转换为单词，然后

2.使用 word2vec 计算这些词的分布式向量表示

python - Spark相当于Keras Tokenizer？

1 回答 1

Related

Reference