0

本质上,我们希望能够为包含在大量文档中的所有 N 克唯一地分配 ID。因此,如果我有 1000 万个文档要处理,我会从每个文档中读取文本并获得 N 克(主要是三元组),并且应该能够为这些 N 元组分配唯一的 ID。不知何故,我需要存储这些唯一的 ID,以便我可以快速获取它们。

4

1 回答 1

1

根据上面的评论,我建议您简单地使用 N-gram 作为它自己的标识符。这样就无需维护从 ID 到 N-gram 的单独映射。

例如,假设您有一个包含文本“hello”的文档,其中包含三元组“hel”、“ell”和“llo”(假设您不包括单词边界)。您可以直接使用 N-gram,而不是首先设置像 1="hel"、2="ell"、3="llo" 之类的 ID 映射并将文档签名设置为 { 1, 2, 3 }作为文档签名{“hel”、“ell”、“llo”}。通过这种方式,您甚至可以将扫描和处理阶段合并到一个文档上。

于 2011-10-14T21:31:07.253 回答