当使用例如gensim、word2vec或类似的方法来训练您的嵌入向量时,我想知道什么是好的比率,或者嵌入维度与词汇大小之间是否存在首选比率?此外,随着更多数据的出现,这种情况会如何变化?
由于我仍在讨论这个话题,在训练嵌入向量时如何选择一个好的窗口大小?
我问这个是因为我不是用现实生活中的语言词典来训练我的网络,而是这些句子将描述进程和文件以及其他进程之间的关系等等。例如,我的文本语料库中的句子如下所示:
smss.exe irp_mj_create systemdrive windows system32 ntdll dll DesiredAccess: Execute/Traverse, Synchronize, Disposition: Open, Options: , Attributes: n/a, ShareMode: Read, AllocationSize: n/a, OpenResult: Opened"
正如您可能想象的那样,变化很多,但问题仍然是我如何以最佳方式微调这些超参数,以便嵌入空间不会过度拟合,而且每个单词都有足够的有意义的特征。
谢谢,
加布里埃尔