7

和之间tokenize.fit_on_text的区别?tokenize.text_to_sequenceword embeddings

尝试在各种平台上搜索,但没有得到合适的答案。

4

1 回答 1

7

词嵌入是一种表示词的方式,使得具有相同/相似含义的词具有相似的表示。学习词嵌入的两种常用算法是 Word2Vec 和 GloVe。

请注意,在针对特定 NLP 问题训练神经网络进行文本处理时,也可以从头开始学习词嵌入。你也可以使用迁移学习;在这种情况下,这意味着将学习到的单词表示从大量数据集中转移到您的问题上。

至于标记器(我假设我们正在谈论的是 Keras),从文档中获取:

  1. tokenize.fit_on_text()--> 根据词频创建词汇索引。例如,如果您有短语“我的狗与您的狗不同,我的狗更漂亮”,,word_index["dog"] = 0word_index["is"] = 1狗出现 3 次,is 出现 2 次)

  2. tokenize.text_to_sequence()--> 将每个文本转换为整数序列。基本上,如果你有一个句子,它会为你句子中的每个单词分配一个整数。您可以访问tokenizer.word_index()(返回字典)以验证为您的单词分配的整数。

于 2019-06-05T20:38:39.977 回答