3

NLP 领域的任何人都听说过Zone Hashing这个词吗?据我所知,区域哈希是遍历文档并提取句子的过程。然后对一堆句子进行散列处理,然后继续处理接下来的n 个句子……

我在 Google 上没有找到任何对此的引用,所以我想知道它是否有不同的名称。它应该与测量文本相似度/接近度有关。

也许它指的是局部敏感散列?

4

1 回答 1

1

据我所知,“区域哈希”在 NLP 作为一门学科中并不是一个成熟的概念。它只是一些算法(与 NLP 相关)中使用的一个简单概念。我知道的唯一一个使用它的是Sphinx搜索服务器,在这里,“区域散列”只是“称为区域的对象的散列”,其中“区域”描述如下:

区域可以正式定义如下。开始标签和匹配结束标签之间的所有内容都称为跨度,并且对应共享相同标签名称的所有跨度的聚合称为区域。例如,文档字段中出现<H1> 和< /H1> 之间的所有内容都属于H1 区域。

由 index_zones 指令启用的区域索引是 HTML 剥离器的可选扩展。所以它还需要启用剥离器(使用 html_strip = 1)。index_zones 的值应该是应作为区域索引的那些标记名称和通配符(以星号结尾)的逗号分隔列表。

区域可以任意嵌套和重叠。唯一的要求是每个开始标签都有一个匹配的标签。您还可以在文档中拥有任意数量的两个区域(如在唯一区域名称中,例如 H1)和跨度(所有这些 H1 标记的出现)。一旦被索引,区域就可以用于与 ZONE 运算符匹配,请参阅第 5.3 节,“扩展查询语法”。

这些结构的散列在传统意义上用于加速搜索和查找。我不知道任何“更深层次”的含义。

也许它指的是局部敏感散列?

局部敏感散列是一种用于多维数据的概率方法,我看不到与区域散列的任何更深层次的联系,然后事实是两者都使用散列函数。

于 2013-08-27T20:16:15.747 回答