您必须将文本转换为向量/数字。要执行此传统方法(如 Bag of words),Tf-Idf 将有所帮助,但最新的神经词嵌入(如Word2Vec、RNN语言模型等)是获得文本数字表示的最佳技术。请使用任何神经词嵌入技术并将文本(词level[word2vec], document level[doc2vec])
转换为数字/向量。现在这些向量带有一些维度并将此表示压缩到更小的维度,您可以使用AutoEncode r。随时询问所需的任何其他信息。试试使用 Python 来完成这些任务,因为它有最新的软件包。