当我们都在玩弄大拇指时,一个 17 岁的加拿大男孩显然发现了一种信息检索算法:
a) 以两倍于当前广泛使用的向量空间模型的精度执行
b) 在识别相似词方面“相当准确”。
c) 使微搜索更准确
这是一个很好的采访。
不幸的是,我还没有找到发表的论文,但是,从我记得几年前学习的图形模型和机器学习课程的片段来看,我认为我们应该能够从他提交的摘要中重建它,以及他在采访中谈到它。
来自采访:
一些搜索会找到出现在相似上下文中的单词。这很好,但这是在第一级遵循关系。我的算法试图进一步跟踪连接。紧密的连接被认为更有价值。从理论上讲,它遵循无限程度的联系。
摘要将其置于上下文中:
引入了一种称为“Apodora”的新型信息检索算法,它使用马尔可夫链状矩阵的有限幂来确定文档的模型,并对单词的语义进行上下文统计推断。该系统被实现并与向量空间模型进行比较。特别是当查询很短时,新算法给出的结果大约是两倍的精度,并且在微搜索中具有有趣的应用。
我觉得知道类似马尔可夫链的矩阵或信息检索的人会立即意识到他在做什么。
所以:他在做什么?