我试图通过分析句子来实现预测。考虑以下[相当无聊的]句子
Call ABC
Call ABC again
Call DEF
我想对上述句子有一个数据结构如下:
Call: (ABC, 2), (again, 1), (DEF, 1)
ABC: (Call, 2), (again, 1)
again: (Call, 1), (ABC, 1)
DEF: (Call, 1)
一般来说,Word: (Word_it_appears_with, Frequency), ....
请注意此类数据的固有冗余。显然,如果 的频率ABC
为 2 under Call
,则 的频率Call
为 2 under ABC
。我该如何优化呢?
这个想法是在输入新句子时使用这些数据。例如,如果Call
已经输入,从数据中,很容易说它ABC
更有可能出现在句子中,并将其作为第一个建议提供,然后再和DEF
。
我意识到这是实现预测的一百万种可能方法中的一种,我热切期待其他方法的建议。
谢谢