nlp - 重构现在著名的 17 岁基于马尔可夫链的信息检索算法“Apodora”

Question

当我们都在玩弄大拇指时，一个 17 岁的加拿大男孩显然发现了一种信息检索算法：

a) 以两倍于当前广泛使用的向量空间模型的精度执行

b) 在识别相似词方面“相当准确”。

c) 使微搜索更准确

这是一个很好的采访。

不幸的是，我还没有找到发表的论文，但是，从我记得几年前学习的图形模型和机器学习课程的片段来看，我认为我们应该能够从他提交的摘要中重建它，以及他在采访中谈到它。

来自采访：

一些搜索会找到出现在相似上下文中的单词。这很好，但这是在第一级遵循关系。我的算法试图进一步跟踪连接。紧密的连接被认为更有价值。从理论上讲，它遵循无限程度的联系。

摘要将其置于上下文中：

引入了一种称为“Apodora”的新型信息检索算法，它使用马尔可夫链状矩阵的有限幂来确定文档的模型，并对单词的语义进行上下文统计推断。该系统被实现并与向量空间模型进行比较。特别是当查询很短时，新算法给出的结果大约是两倍的精度，并且在微搜索中具有有趣的应用。

我觉得知道类似马尔可夫链的矩阵或信息检索的人会立即意识到他在做什么。

所以：他在做什么？

score 3 · Accepted Answer

从使用诸如“上下文”之类的词以及他引入了二阶统计依赖的事实来看，我怀疑他正在做一些与论文中概述的 LDA-HMM 方法相关的事情：Griffiths, T., Steyvers, M. , Blei, D., & Tenenbaum, J. (2005)。整合主题和语法。神经信息处理系统的进展。由于模型平均，搜索分辨率存在一些固有限制。然而，我很羡慕在 17 岁时做这样的事情，我希望他能独立完成一些事情，并且至少逐渐变得更好。即使是同一主题的不同方向也会很酷。

nlp - 重构现在著名的 17 岁基于马尔可夫链的信息检索算法“Apodora”

1 回答 1

Related

Reference