3

我可以访问我感兴趣的文本语料库上的词向量。现在,我面临的问题是这些向量区分大小写,例如,“Him”与“him”不同,与“HIM”不同。

我想找到与“他”这个词最相似的词是不区分大小写的方式。我使用与 Google软件包distance.c捆绑在一起的程序。word2vec这是我面临问题的地方。

我是否应该将“他他他”作为参数传递给distance.c可执行文件。这将返回关闭到 3 个单词的单词发送。

或者我应该distance.c使用 3 个参数(“Him”、“him”和“HIM”)中的每一个单独运行程序,然后以合理的方式将这些列表放在一起以得出最相似的单词?请建议。

4

2 回答 2

0

如果您想以不区分大小写的方式查找相似的单词,则应将所有单词向量转换为小写或大写,然后运行编译后的distance.c.

使用标准的 shell 工具很容易做到这一点。

例如,如果您的原始数据位于一个名为 的文件中input.txt,则以下内容将适用于大多数类 Unix 的 shell。

tr '[:upper:]' '[:lower:]' < input.txt > output.txt
于 2014-04-09T05:53:25.733 回答
0

您可以将二进制格式转换为文本,然后按照您认为合适的方式进行操作。

于 2014-11-01T11:36:09.483 回答