1

到目前为止,我使用 numpy 和内置函数(例如 keras tokenizer 类,tf.keras.preprocessing.text.Tokenizer:https ://keras.io/api/preprocessing/text/ )对文本数据进行预处理。

还有我被卡住了:因为我试图扩大我的模型和数据集,所以我正在试验 spark 和 spark nlp ( https://nlp.johnsnowlabs.com/docs/en/annotators#tokenizer ).. . 但是,我还没有找到类似的工作标记器。拟合的标记器必须稍后可用于转换验证/新数据。

我的输出应该将每个标记表示为一个唯一的整数值(从 1 开始),例如:

[ 10,... ,  64,  555]
[ 1,... , 264,   39]
[ 12,..., 1158, 1770]

目前,我可以使用 Spark NLP-tokenizer 来获取标记词:

[okay,..., reason, still, not, get, background] 
[picture,..., expand, fill, whole, excited]                     
[not, worry,..., happy, well, depend, on, situation]

有没有人有不需要将数据复制出火花环境的解决方案?

更新:

我创建了两个 CSV 来澄清我当前的问题。第一个文件是通过预处理管道创建的:1.cleaned_delim_text

之后,分隔的单词应该被“翻译”成整数值,序列应该用零填充到相同的长度:2.cleaned_tok_text

4

1 回答 1

0

请尝试以下组合 -

1.使用tokenizer将语句转换为单词,然后

2.使用 word2vec 计算这些词的分布式向量表示

于 2020-06-19T09:44:41.730 回答