我有一个包含单词word_i
和权重的庞大数据集weight[i,j]
,其中权重是单词之间的“连接强度”。
我想对这些数据进行二值化,但我想知道是否存在任何现有的算法来制作每个单词的二进制代码,使得单词代码之间的汉明距离与这个权重相关。
补充:
我正在研究的问题是我想尝试教神经网络或 SVM 在单词之间建立关联。这就是我决定对数据进行二值化的原因。不要问我为什么不想使用马尔可夫模型或只使用图表,我已经尝试过它们并想将它们与神经网络进行比较。
所以,
我希望给定单词“a”上的 NN 返回其最接近的关联或任何设置的单词及其概率,
我试图将“ab”二值化并将“ab”作为输入,并将权重作为首选答案,这效果很差,
我正在考虑使阈值(权重)再改变 1 位。这个阈值越小,您需要的位数越多,
我有一个情况:a->b w1; b->a w2; w1>>w2,所以方向很重要。