我在大型维基百科数据集http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/上找到了一个使用 word2vec 的教程
我想构建一个类似于 Daniel 的 yhat rest API在他的教程中演示。
今天我整理了一些我想分析的西班牙报纸文章。我检索我的数据的网站非常定期地格式化它的文章,所以我有 1000 篇文章存储为字符串,例如
"Otros se dan a conocer por la simpleza, como Sonya Cortés,
quien expresó que atesora compartir en familia y gozar de salud.
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz,
aprovechará para estrenar su nueva piscina ya que por su agenda
de trabajo no ha podido darse un chapuzón todavía. Mientras,
Daddy Yankee se tomará un descanso con la familia luego de una larga gira."
我对 Python 很满意,并希望使用教程中列出的 Python 包装器: https ://github.com/danielfrg/word2vec
如何将我的语料库加载到 word2vec 中?现在我有一个字符串数组。
目前我的语料库适合记忆。word2vec 仍然是正确的工具吗?