1

我正在尝试在Bengali新闻数据集上运行 GloVe 词嵌入。现在,原始的 GloVe 源除了英语之外没有任何受支持的语言,但我发现具有为 30 种非英语语言预训练的词向量。

我正在使用 GloVe 嵌入在文本分类上运行此笔记本。我的问题是

  1. 我可以将预训练的孟加拉语词向量与我的自定义Bengali数据集一起使用,并在此模型上运行吗?

  2. 这个预训练的孟加拉语词向量是有tsv格式的。使用以下代码,我似乎无法将其解析为word-vector列表。

     embeddings_index = {}
     f = open(root_path + 'bn.tsv')
     for line in f:
         values = line.split('\t')
         word = values[1] ## The first entry is the word
         coefs = np.asarray(values[1:], dtype='float32') ## These are the vecotrs representing the embedding for the word
         embeddings_index[word] = coefs
     f.close()
    
     print('GloVe data loaded')
    

我得到了错误

---------------------------------------------------------------------------
    ValueError                                Traceback (most recent call last)
    <ipython-input-39-3a4cb8d8dfb0> in <module>()
          4     values = line.split('\t')
          5     word = values[1] ## The first entry is the word
    ----> 6     coefs = np.asarray(values[1:], dtype='float32') ## These are the vecotrs representing the embedding for the word
          7     embeddings_index[word] = coefs
          8 f.close()

    /usr/local/lib/python3.6/dist-packages/numpy/core/_asarray.py in asarray(a, dtype, order)
         83 
         84     """
    ---> 85     return array(a, dtype, copy=False, order=order)
         86 
         87 

    ValueError: could not convert string to float: 'এবং'
4

0 回答 0