9

我正在做基于医疗保健的项目。我将用症状和疾病训练我的自动编码器,即我的输入是文本形式的。那会奏效吗?(我正在使用 Rstudio)。请任何人帮助我

4

2 回答 2

10

您必须将文本转换为向量/数字。要执行此传统方法(如 Bag of words),Tf-Idf 将有所帮助,但最新的神经词嵌入(如Word2Vec、RNN语言模型等)是获得文本数字表示的最佳技术。请使用任何神经词嵌入技术并将文本(词level[word2vec], document level[doc2vec])转换为数字/向量。现在这些向量带有一些维度并将此表示压缩到更小的维度,您可以使用AutoEncode r。随时询问所需的任何其他信息。试试使用 Python 来完成这些任务,因为它有最新的软件包。

于 2015-12-18T07:34:47.307 回答
0

您可以按照此处的说明对文本数据使用自动编码器。

自动编码器通常在图像数据上工作得更好,但最近的方法改变了自动编码器,使其在文本数据上也很好。

看看这个

该代码也可在 GitHub 中获得。

于 2018-10-02T18:05:00.933 回答