python - 自然语言处理：word2vec 的文本语料库格式

Question

我在大型维基百科数据集http://danielfrg.github.io/blog/2013/09/21/word2vec-yhat/上找到了一个使用 word2vec 的教程
我想构建一个类似于 Daniel 的 yhat rest API在他的教程中演示。

今天我整理了一些我想分析的西班牙报纸文章。我检索我的数据的网站非常定期地格式化它的文章，所以我有 1000 篇文章存储为字符串，例如

"Otros se dan a conocer por la simpleza, como Sonya Cortés, 
quien expresó que atesora compartir en familia y gozar de salud.   
En el ambiente del reggaeton, Khriz, del dúo Ángel & Khriz, 
aprovechará para estrenar su nueva piscina ya que por su agenda 
de trabajo no ha podido darse un chapuzón todavía. Mientras, 
Daddy Yankee se tomará un descanso con la familia luego de una larga gira."

我对 Python 很满意，并希望使用教程中列出的 Python 包装器： https ://github.com/danielfrg/word2vec

如何将我的语料库加载到 word2vec 中？现在我有一个字符串数组。

目前我的语料库适合记忆。word2vec 仍然是正确的工具吗？

score 1 · Accepted Answer

如果通过

现在我有一个字符串数组

你的意思是它已经被标记化了。

sentences = gensim.models.word2vec.LineSentence(path_to_corpus)
model = gensim.models.Word2Vec(sentences, min_count=10, size=500, window=10, sg=1, workers=4)

句子必须是字符串列表，即：

[['this', 'is', 'my', 'first', 'sentence'], ['this', 'is', 'the', 'second']]

score 0 · Accepted Answer

试试http://radimrehurek.com/gensim/models/word2vec.html。

目前我的语料库适合记忆。word2vec 仍然是正确的工具吗？

是的。Word2vec（C 和 Python 版本）可以使用大于 RAM 的语料库。当然，小于 RAM 也可以。

python - 自然语言处理：word2vec 的文本语料库格式

2 回答 2

Related

Reference